Δημιουργία ενός αρχείου του robots.txt για τον ιστοχώρο σας
Από Sumantra Roy
Μερικοί άνθρωποι θεωρούν ότι πρέπει να δημιουργήσουν τις διαφορετικές σελίδες για τις διαφορετικές μηχανές αναζήτησης, κάθε σελίδα που βελτιστοποιείται για μια λέξη κλειδί και για μια μηχανή αναζήτησης. Τώρα, ενώ δεν συστήνω ότι οι άνθρωποι δημιουργούν τις διαφορετικές σελίδες για τις διαφορετικές μηχανές αναζήτησης, εάν αποφασίζετε να δημιουργήσετε τέτοιες σελίδες, υπάρχει ένα ζήτημα το οποίο πρέπει να γνωρίζετε.
Αυτές οι σελίδες, αν και βελτιστοποιούνται για τις διαφορετικές μηχανές αναζήτησης, αποδεικνύονται συχνά αρκετά παρόμοιες η μια με την άλλη. Οι μηχανές αναζήτησης έχουν τώρα τη δυνατότητα να ανιχνεύσουν πότε μια περιοχή έχει δημιουργήσει τέτοιες παρόμοιες σελίδες κοιτάγματος και τιμωρούν ή ακόμα και απαγορεύουν τέτοιες περιοχές. Προκειμένου να αποτραπεί η περιοχή σας από την τιμωρία για, πρέπει να αποτρέψετε τις αράχνες μηχανών αναζήτησης από την ευρετηρίαση των σελίδων που δεν σημαίνουν για την, δηλ. πρέπει να αποτρέψετε AltaVista από την ευρετηρίαση των σελίδων που σημαίνουν για Excite και αντίστροφα. Ο καλύτερος τρόπος να κάνει που είναι να χρησιμοποιηθεί ένα αρχείο του robots.txt.
Πρέπει να δημιουργήσετε ένα αρχείο του robots.txt χρησιμοποιώντας έναν επεξεργαστή κειμένων όπως το σημειωματάριο Windows. Μην χρησιμοποιήστε τον επεξεργαστή λέξεών σας για να δημιουργήσετε ένα τέτοιο αρχείο.
Εδώ είναι η βασική σύνταξη του αρχείου του robots.txt:
Χρήστης-πράκτορας: [Όνομα αραχνών]
Απαγορεύστε: [Αρχείο - όνομα]
Για παράδειγμα, για να πει την αράχνη AltaVista, το μηχανικό δίκυκλο, όχι στην αράχνη το ονομασμένο αρχείο myfile1.html που κατοικεί στον κατάλογο αρχείων ρίζας του κεντρικού υπολογιστή, εσείς θα έγραφε
Χρήστης-πράκτορας: Μηχανικό δίκυκλο
Απαγορεύστε: /myfile1.html
Για να πουν Excite's την αράχνη, που καλείται ArchitextSpider, όχι στην αράχνη τα αρχεία myfile2.html και myfile3.html, εσείς θα έγραφαν
Χρήστης-πράκτορας: ArchitextSpider
Απαγορεύστε: /myfile2.html
Απαγορεύστε: /myfile3.html
Μπορείτε, φυσικά, να βάλετε τις πολλαπλάσιες δηλώσεις χρήστης-πρακτόρων στο ίδιο αρχείο του robots.txt. Ως εκ τούτου, για να πει AltaVista όχι στην αράχνη το ονομασμένο αρχείο myfile1.html, και για να πει διεγείρει όχι στην αράχνη τα αρχεία myfile2.html και το myfile3.html, εσείς θα έγραφε
Χρήστης-πράκτορας: Μηχανικό δίκυκλο
Απαγορεύστε: /myfile1.html
Χρήστης-πράκτορας: ArchitextSpider
Απαγορεύστε: /myfile2.html
Απαγορεύστε: /myfile3.html
Εάν θέλετε να αποτρέψετε όλα τα ρομπότ από το ονομασμένο αρχείο myfile4.html, μπορείτε να χρησιμοποιήσετε το * χαρακτήρα μπαλαντέρ στη γραμμή χρήστης-πρακτόρων, δηλ. θα γράφατε
Χρήστης-πράκτορας: *
Απαγορεύστε: /myfile4.html
Εντούτοις, δεν μπορείτε να χρησιμοποιήσετε το χαρακτήρα μπαλαντέρ στη Disallow γραμμή.
Μόλις δημιουργήσετε το αρχείο του robots.txt, πρέπει να το φορτώσετε στον κατάλογο αρχείων ρίζας της δικτυακής γειτονιάς σας. Το φόρτωμα του σε οποιοδήποτε subdirectory δεν θα λειτουργήσει - το αρχείο του robots.txt πρέπει να είναι στον κατάλογο αρχείων ρίζας.
Δεν θα συζητήσω τη σύνταξη και τη δομή του αρχείου του robots.txt περαιτέρω - μπορείτε να πάρετε τις πλήρεις προδιαγραφές από το http://www.robotstxt.org/wc/norobots.html
Τώρα ερχόμαστε στο πώς το αρχείο του robots.txt μπορεί να χρησιμοποιηθεί για να αποτρέψει την περιοχή σας από την τιμωρία για σε περίπτωση που δημιουργείτε τις διαφορετικές σελίδες για τις διαφορετικές μηχανές αναζήτησης. Αυτό που πρέπει να κάνετε είναι να αποτραπεί κάθε μηχανή αναζήτησης από οι σελίδες που δεν σημαίνουν για την.
Για την απλότητα, υποθέστε ότι στοχεύετε σε μόνο δύο λέξεις κλειδιά: «τουρισμός στην Αυστραλία» και «ταξίδι στην Αυστραλία». Επίσης, υποθέστε ότι στοχεύετε μόνο σε τέσσερις από τις σημαντικότερες μηχανές αναζήτησης: Το AltaVista, διεγείρει, HotBot και βόρειο φως.
Τώρα, υποθέστε ότι έχετε ακολουθήσει την ακόλουθη σύμβαση για την ονομασία των αρχείων: Κάθε σελίδα ονομάζεται με το χωρισμό των μεμονωμένων λέξεων της λέξης κλειδιού για την οποία η σελίδα βελτιστοποιείται από τις παύλες. Σε αυτό προστίθεται τις πρώτες δύο επιστολές του ονόματος της μηχανής αναζήτησης για την οποία η σελίδα βελτιστοποιείται.
Ως εκ τούτου, τα αρχεία για AltaVista είναι
tourism-in-australia-al.html
travel-to-australia-al.html
Τα αρχεία για Excite είναι
tourism-in-australia-ex.html
travel-to-australia-ex.html
Τα αρχεία για HotBot είναι
tourism-in-australia-ho.html
travel-to-australia-ho.html
Τα αρχεία για το βόρειο φως είναι
tourism-in-australia-no.html
travel-to-australia-no.html
Όπως σημείωσα νωρίτερα, η αράχνη AltaVista καλείται μηχανικό δίκυκλο και Excite's η αράχνη καλείται ArchitextSpider.
Ένας κατάλογος αραχνών για τις σημαντικότερες μηχανές αναζήτησης μπορεί να βρεθεί στο http://www.searchenginewatch.com/webmasters/spiderchart.html
Από αυτόν τον κατάλογο, διαπιστώνουμε ότι η αράχνη για το βόρειο φως καλείται Gulliver. Το HotBot χρησιμοποιεί Inktomi και η αράχνη Inktomi καλείται σλουρπ. Χρησιμοποιώντας αυτήν την γνώση, είναι εδώ αυτό που το αρχείο του robots.txt πρέπει να περιέχει:
Χρήστης-πράκτορας: Μηχανικό δίκυκλο
Απαγορεύστε: /tourism-in-australia-ex.html
Απαγορεύστε: /travel-to-australia-ex.html
Απαγορεύστε: /tourism-in-australia-ho.html
Απαγορεύστε: /travel-to-australia-ho.html
Απαγορεύστε: /tourism-in-australia-no.html
Απαγορεύστε: /travel-to-australia-no.html
Χρήστης-πράκτορας: ArchitextSpider
Απαγορεύστε: /tourism-in-australia-al.html
Απαγορεύστε: /travel-to-australia-al.html
Απαγορεύστε: /tourism-in-australia-ho.html
Απαγορεύστε: /travel-to-australia-ho.html
Απαγορεύστε: /tourism-in-australia-no.html
Απαγορεύστε: /travel-to-australia-no.html
Χρήστης-πράκτορας: Σλουρπ
Απαγορεύστε: /tourism-in-australia-al.html
Απαγορεύστε: /travel-to-australia-al.html
Απαγορεύστε: /tourism-in-australia-ex.html
Απαγορεύστε: /travel-to-australia-ex.html
Απαγορεύστε: /tourism-in-australia-no.html
Απαγορεύστε: /travel-to-australia-no.html
Χρήστης-πράκτορας: Gulliver
Απαγορεύστε: /tourism-in-australia-al.html
Απαγορεύστε: /travel-to-australia-al.html
Απαγορεύστε: /tourism-in-australia-ex.html
Απαγορεύστε: /travel-to-australia-ex.html
Απαγορεύστε: /tourism-in-australia-ho.html
Απαγορεύστε: /travel-to-australia-ho.html
Όταν βάζετε τις ανωτέρω γραμμές στο αρχείο του robots.txt, καθοδηγείτε κάθε μηχανή αναζήτησης όχι στην αράχνη τα αρχεία που σημαίνουν για τις άλλες μηχανές αναζήτησης.
Όταν τελειώσετε το αρχείο του robots.txt, διπλοέλεγχος για να εξασφαλίσει ότι δεν έχετε κάνει οποιαδήποτε σφάλματα οπουδήποτε σε τον. Ένα μικρό σφάλμα μπορεί να έχει τις καταστρεπτικές συνέπειες - μια μηχανή αναζήτησης μπορεί αρχεία αραχνών που δεν σημαίνουν για το, οπότε σ'αυτή την περίπτωση μπορεί να τιμωρήσει την περιοχή σας για, ή, δεν μπορεί αράχνη οποιαδήποτε αρχεία καθόλου, οπότε σ'αυτή την περίπτωση δεν θα πάρετε τις κορυφαίες ταξινομήσεις σε εκείνη την μηχανή αναζήτησης.
Άρθρο από Sumantra Roy. Το Sumantra είναι ένας από τους πιό σεβαστούς τοποθετώντας ειδικούς μηχανών αναζήτησης στο διαδίκτυο. Διαβάστε περισσότερων για το πώς να πάρει τις υψηλές θέσεις στις μηχανές αναζήτησης με τον κρότο αυτής της σύνδεσης.
|