Sunday 12 April 2009

Google introduz ficheiro robots.txt no Blogspot by ђλ¢Қ_λŧŧλ¢Ҝ™


Recentemente, e de forma aparentemente discreta, o blogger introduziu o ficheiro robots.txt nos blogs alojados em blogspot.com. O ficheiro pode ser encontrado na raiz do blog (em http://nomedoblog.blogspot.com/robots.txt ) e tem como único efeito o de bloquear as páginas de resultados e de etiquetas nos motores de busca:
User-agent: *
Disallow: /search
Ou seja, tudo o que esteja depois de /search não é indexado nem aparece nos resultados de busca. As etiquetas (tags ou labels, se preferirem) surgem no seguinte formato: http://nomedoblog.blogspot.com/search/label/etiqueta
Para a maioria dos utilizadores do blogger esta mudança é benéfica, uma vez que impede a indexação de páginas com conteúdos duplicados e remove do index páginas de pouco valor que consumem recursos.Há, contudo, uma minoria que sai prejudicada, seja pelo uso que já fazem das etiquetas enquanto magnetes para os motores de busca, ou por terem adaptado uma navegação à base das etiquetas em vez do habitual arquivo histórico. O ficheiro robots.txt não pode ser editado pelos utilizadores do serviço gratuito.
No início da entrada classifiquei esta alteração de discreta. Com efeito, algumas buscas no Google devolveram apenas algumas discussões recentes em fóruns nos grupos do google e esta entrada de 14 de Julho num blog relativamente desconhecido, a mesma que me havia sido sugerida pelo Paulo “Palavras Cruzadas” Freixinho por email, ao qual agradeço a dica.
Como Criar um Arquivo robots.txt
Você pode criar um robots.txt em qualquer editor de texto, mas existem vários geradores que você pode encontrar na web.O google oferece esta ferramenta no Google Webmasters Tools.
Analisando o robots.txt
No Google Webmaster Central, existe uma ferramenta de análise muito eficiente, que mostra os erros que o crawler encontrou durante a anáise do seu site. Mais detalhes podem ser encontrados no meu artigo de otimização de sites usando o google webmaster tools.
Exemplos de Formatação do robots.txt
Permite que todos os arquivos sejam indexados
User-agent: *
Disallow:
Não permite que nenhum arquivo seja indexado
User-agent: *
Disallow: /
Não permite que uma pasta seja indexada, com aexceção do arquivo myfile.html que está dentro da pasta
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/myfile.html
Informação Contida no robots.txt
Os search engines são vorazes por padrão. Eles querem indexar o máximo de informação de qualidade que conseguirem, e eles presumem que podem indexar tudo, a menos que alguém diga para eles pararem.
Se você especificar dados para todos os bots (*) e dados para bots específicos (como o Googlebot), então os comandos específicos para bots serão seguidos enquanto o bot especificado (no nosso exemplo o Googlebot) irá ignorar os comandos globais. Logo, se você fizer um comando global que queira aplicar para um bot específico, então você deverá colocar o comando para o bot específico também.
Quando você bloqueia URLs para que elas não sejam indexadas no Google pelo robots.txt, ele (o Google) pode ainda mostrar estas URLs nos resultados das pesquisas. Uma solução completa é bloquear usando as meta tags:
"meta name="”robots”" content="”noindex”""
"meta name="”robots”" content="”noindex,nofollow”""
Se você não tem um arquivo robots.txt, os logs dos servidores irão retornar erros 404 sempre que um bot tentar acessar o arquivo. Você pode fazer upload do arquivo em branco com o nome robots.txt na pasta raiz do seu site.
Alguns search engines tambeém permitem que você especifique o endereço de um sitemap XML no arquivo robots.txt.
Caracteres Especiais
Google, Yahoo! e MSN permitem o uso de caracteres especiais no arquivo robots.txt.
Para bloquear acesso para todas as URLs que incluem uma interrogação (? - URLs com paâmetros via GET), você deve usar o seguinte código:
User-agent: *
Disallow: /*?
Você pode também especificar arquivos com determinadas extensões usando o cifrão ($). Por exemplo: se você quer bloquear todas as páginas com extensão .asp, coloque no robots.txt :
User-agent: Googlebot
Disallow: /*.asp$
Excentricidades
Sabemos que o Google vem “preenchendo” formulários de pesquisa e indexando as páginas geradas. Para evitar que tais páginas sejam indexadas, bloqueie pelo robots.txt. Suponha que a variável de pesquisa na URL seja “search”. Então você poderia por:
User-agent: *
Disallow: /?search=
para evitar que as páginas geradas por pesquisa sejam geradas.
Finalizo por aqui. Em breve disponibilizaremos ferramentas para ajudá-los nestas questões. Grande abraço!

No comments:

Post a Comment