terça-feira, 21 de fevereiro de 2017

Googlebot e seu site


Fala galera que acompanha o blog... 

Se você ainda não conhecia o Googlebot e a relação dele com seu site, esse post é muito importante para aprender como o seu site é "mapeado" na internet por esse robozinho... 

Googlebot é o robô de rastreamento da Web do Google (também chamado de "indexador"). O rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google. 

Talvez o termo "indexador" não te remeta a nenhuma lembrança sobre assuntos relacionados que você já tenha lido, pois podem ser encontrados em outros termos como: web crawlersbots, web spiders, web robot ou web scutter. 


Googlebot e seu site

O mais comum é web crawler que em português significa rastreador web. O processo de rastreamento que um web crawler executa é chamado de web crawling ou spidering. Em particular os motores de busca, usam crawlers para manter uma base de dados atualizada, mas também podem ser utilizados para executar tarefas de manutenção automatizados em um site, como verificar links quebrados ou código HTML e até mesmo minerar endereços de email, normalmente utilizados para spam. 

Bom, todos os dias milhares de sites são criados e desativados na Internet, e como seria possível acompanhar toda essa movimentação? Como são definidos quais são os sites que ficarão no topo ao realizar uma busca? E principalmente como as buscas são feitas de forma tão rápida? 
Googlebot atua vasculhando a internet em 3 fases: 

Fase I - RastreamentoO rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google. Usa-se um grande conjunto de computadores para buscar (ou “rastrear”) bilhões de páginas na Web.
O processo de rastreamento do Google começa com uma lista de URLs de páginas da Web, gerada a partir de processos anteriores de rastreamento e aumentada com dados do sitemap fornecidos por webmasters. Conforme o Googlebot visita cada um desses sites, ele detecta os links de cada página e os inclui na lista de páginas a serem rastreadas. Novos sites, alterações em sites existentes e links inativos serão detectados e usados para atualizar o índice do Google.

O Google não aceita pagamento para rastrear um site com mais frequência e mantém a área de pesquisa de negócios separada dos serviços geradores de receita do Google AdWords.

Fase II - Indexação: Agora que o Googlebot já identificou os sites e recolheu as informações sobre eles, chegou a hora de ele processar estas informações. Na fase da indexação os sites anteriormente lidos são agora avaliados segundo uma série de critérios e testes que analizam o nível de SEO e o Googlebot decide então quais deles são os mais relevantes para cada keyword. É nessa fase que são decididos quais são os melhores sites e que eles são separados. Outra curiosidade interessante que é nessa fase também que o Googlebot realiza os testes de black hat no seu site. Se alguma irregularidade for encontrada no seu site ao invés de ele ser marcado como sendo um dos melhores ele é marcado com um site “ladrão” e é punido. Entre as punições podemos ter desde a perda de pontos que vão fazer o seu site cair no ranking até a desindexação onde o seu site é literalmente “expulso” do Google não aparecendo mais nos resultados de nenhuma pesquisa. 

Fase III - PublicaçãoQuando um usuário faz uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retornam os resultados que acreditamos ser os mais relevantes para ele. A relevância é determinada por mais de 200 fatores, entre eles o PageRank de uma determinada página. O PageRank é a medida da importância de uma página com base nos links de entrada de outras páginas. Em outras palavras, cada link para uma página no seu site proveniente de outro site adiciona um PageRank ao seu site. Nem todos os links são iguais: o Google trabalha com afinco para melhorar a experiência do usuário, identificando links de spam e outras práticas que afetam negativamente os resultados da pesquisa. Os melhores tipos de links são aqueles retornados com base na qualidade do conteúdo.

Muito bacana não? 

Conforme informado no próprio site de suporte do Google, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. Um detalhe importante é acompanhar os seus registros  que podem mostrar visitas de diversas máquina no google.com.br, todas com o Googlebot user-agent. Caso seja necessário solicite  uma alteração na taxa de rastreamento nesse link aqui.

Ahh importante mencionar que não existe apenas o Googlebot, temos diversos outros robozinhos como: Yahoo! Slurp é o nome do crawler do Yahoo!, Msnbot é o nome do crawler do Bing – Microsoft, Methabot é um crawler com suporte a scripting escrito em C e vários outros. 

É isso ai pessoal, até a próxima!
Luiz Fagner Zordan Analista de Sistemas

Graduado em Sistemas de Informação, atualmente trabalhando na Embraer pela FocusNetworks como FullStack. Sou apaixonado por tecnologia, fascinado por jogos e adoro passar o tempo assistindo séries.