Criando uma lima de robots.txt para seu Web site
Por Sumantra Roy
Alguns povos acreditam que devem criar páginas diferentes para os motores diferentes da busca, cada página aperfeiçoada para uma palavra-chave e para um Search Engine. Agora, quando eu não recomendar que os povos criam páginas diferentes para os motores diferentes da busca, se você decide criar tais páginas, lá são uma edição de que você precisa de estar ciente.
Estas páginas, embora aperfeiçoado para os motores diferentes da busca, frequentemente turn out para ser consideravelmente similar entre eles. Os motores da busca agora têm a habilidade de detectar quando um local criou tais páginas de vista similares e são penalizando ou mesmo de proibição tais locais. A fim impedir que seu local esteja penalizado para o Spamming, você precisa de impedir as aranhas do Search Engine das páginas de índice que não são significadas para ele, isto é você precisa de impedir AltaVista das páginas de índice significadas para excita e vice-versa. A melhor maneira de fazer que é usar uma lima de robots.txt.
Você deve criar uma lima de robots.txt usando um editor de texto como o bloco de notas de Windows. Não use seu tratamento de textos para criar tal lima.
Está aqui a sintaxe básica da lima de robots.txt:
Usuário-Agente: [Nome da aranha]
Recuse: [Nome de arquivo]
Por exemplo, para dizer a aranha de AltaVista, o "trotinette", não à aranha que a lima nomeou myfile1.html que reside no diretório de raiz do server, você escreveria
Usuário-Agente: "trotinette"
Recuse: /myfile1.html
Para dizer excitaram a aranha, chamada ArchitextSpider, não à aranha as limas myfile2.html e myfile3.html, você escreveria
Usuário-Agente: ArchitextSpider
Recuse: /myfile2.html
Recuse: /myfile3.html
Você pode, naturalmente, põr indicações múltiplas do Usuário-Agente na mesma lima de robots.txt. Daqui, dizer a AltaVista não à aranha a lima nomeou myfile1.html, e para dizer excite não à aranha as limas myfile2.html e myfile3.html, você escreveria
Usuário-Agente: "trotinette"
Recuse: /myfile1.html
Usuário-Agente: ArchitextSpider
Recuse: /myfile2.html
Recuse: /myfile3.html
Se você quer impedir que todos os robôs spidering a lima nomeada myfile4.html, você pode usar * o caráter de convite na linha do Usuário-Agente, isto é você escreveria
Usuário-Agente: *
Recuse: /myfile4.html
Entretanto, você não pode usar o caráter de convite na linha da recusa.
Uma vez que você criou a lima de robots.txt, você deve transferi-la arquivos pela rede ao diretório de raiz de seu domínio. Transferi-lo arquivos pela rede a nenhum sub-directório não trabalhará - a lima de robots.txt precisa de estar no diretório de raiz.
Eu não discutirei a sintaxe e a estrutura da lima de robots.txt para promover - você pode começ as especificações completas de http://www.robotstxt.org/wc/norobots.html
Agora nós vimos a como a lima de robots.txt pode ser usada para impedir que seu local esteja penalizado para o Spamming caso que você está criando páginas diferentes para os motores diferentes da busca. O que você precisa de fazer é impedir cada Search Engine das páginas spidering que não são significadas para ele.
Para a simplicidade, deixe-nos supor que você está alvejando somente duas palavras-chaves: “turismo em Austrália” e “curso a Austrália”. Também, deixe-nos supor que você está alvejando somente quatro dos motores principais da busca: AltaVista, excita, HotBot e luz do norte.
Agora, supor que você seguiu a seguinte convenção para nomear as limas: Cada página é nomeada separando as palavras individuais da palavra-chave para que a página está sendo aperfeiçoada por hífens. A isto é adicionado as primeiras duas letras do nome do Search Engine para que a página está sendo aperfeiçoada.
Daqui, as limas para AltaVista são
tourism-in-australia-al.html
travel-to-australia-al.html
As limas para excitam são
tourism-in-australia-ex.html
travel-to-australia-ex.html
As limas para HotBot são
tourism-in-australia-ho.html
travel-to-australia-ho.html
As limas para a luz do norte são
tourism-in-australia-no.html
travel-to-australia-no.html
Como eu anotei mais cedo, a aranha de AltaVista é chamada "trotinette" e excitou a aranha é chamada ArchitextSpider.
Uma lista de aranhas para os motores principais da busca pode ser encontrada em http://www.searchenginewatch.com/webmasters/spiderchart.html
Desta lista, nós encontramos que a aranha para a luz do norte está chamada Gulliver. HotBot usa Inktomi e a aranha de Inktomi é chamada Slurp. Usando este conhecimento, é aqui o que a lima de robots.txt deve conter:
Usuário-Agente: "trotinette"
Recuse: /tourism-in-australia-ex.html
Recuse: /travel-to-australia-ex.html
Recuse: /tourism-in-australia-ho.html
Recuse: /travel-to-australia-ho.html
Recuse: /tourism-in-australia-no.html
Recuse: /travel-to-australia-no.html
Usuário-Agente: ArchitextSpider
Recuse: /tourism-in-australia-al.html
Recuse: /travel-to-australia-al.html
Recuse: /tourism-in-australia-ho.html
Recuse: /travel-to-australia-ho.html
Recuse: /tourism-in-australia-no.html
Recuse: /travel-to-australia-no.html
Usuário-Agente: Slurp
Recuse: /tourism-in-australia-al.html
Recuse: /travel-to-australia-al.html
Recuse: /tourism-in-australia-ex.html
Recuse: /travel-to-australia-ex.html
Recuse: /tourism-in-australia-no.html
Recuse: /travel-to-australia-no.html
Usuário-Agente: Gulliver
Recuse: /tourism-in-australia-al.html
Recuse: /travel-to-australia-al.html
Recuse: /tourism-in-australia-ex.html
Recuse: /travel-to-australia-ex.html
Recuse: /tourism-in-australia-ho.html
Recuse: /travel-to-australia-ho.html
Quando você põr as linhas acima em robots.txt arquivam, você instruem cada Search Engine não à aranha que as limas significaram para os outros motores da busca.
Quando você terminar criar a lima de robots.txt, segunda verificação para assegurar-se de que você não fizesse nenhuma erros em qualquer lugar nela. Um erro pequeno pode ter conseqüências desastrosas - um Search Engine pode as limas da aranha que não estão significadas para ele, neste caso podem penalizar seu local para o Spamming, ou, não podem aranha nenhuma limas de todo, neste caso você não começ classificações superiores nesse Search Engine.
Artigo por Sumantra Roy. Sumantra é um do Search Engine o mais respeitado que posiciona especialistas sobre o Internet. Leia mais sobre como começ posições elevadas nos motores da busca estalando esta ligação.
|