robots-exclusion-fr
Profil Robot Exclusion
Spécification Brouillon du 18-06-2005
Auteurs
- Peter Janes
- (traduction française : Christophe Ducamp)
Copyright
Cette spécification est © 2004-2005 par l'auteur. Néanmoins, l'auteur a pour intention de soumettre cette spécification à un corps de standards avec une politique libérale de copyright telle que le GMPG. Voir les Principes GMPG pour plus de détails. Quiconque souhaitant contribuer à cet effort DOIT lire ces principes, tout spécialement ceux considérant le copyright et la licence, et être d'accord avec eux avant de contribuer.
Brevets
L'auteur ne détient ni n'a l'intention d'appliquer quelque brevet sur tout ce qui est requis pour mettre en oeuvre cette spécification.
Abstract
Le Profil Robot Exclusion est un retravail de la balise Robots META (et des extensions moins standards) sous un microformat.
Introduction
La balise Robots META est utilisée pour fournir une direction spécifique-à-une-page pour les crawlers web. Tout en étant utile dans beaucoup de cas, sa nature spécifique-à-une-page veut dire qu'elle ne peut pas être utilisée pour empêcher les crawlers d'indexer seulement certaines sections d'un document. Plusieurs tentatives ont été produites pour créer des solutions plus granulaires à travers différentes méthodes mais ont été perçues comme des raccourcis qui limitent leur utilisation ; Le Profil Exclusion Robot détinit un microformat qui peut être appliqué à n'importe quel élément ou ensemble d'éléments dans une page.
Comme d'autres microformats tels que hCalendar, le Profil Robot Exclusion définit un ensemble de noms de classe qui peuvent être appliqués aux éléments (X)HTML. class
peut être appliqué à presque tout élément (X)HTML, ce qui veut dire que les auteurs peuvent être aussi spécifiques ou générer comme ils le souhaitent dans leurs applications. Ceci diffère de l'attribut similaire rel="nofollow"
qui ne peut être appliqué qu'à un lien spécifique (et ne fait pas référence au contenu) dans la ligne. (Il est intéressant de noter que ce comportement est complètement englobé par l'utilisation de class="robots-nofollow"
sur le même élément.) Les classes sont aussi additives, ainsi plusieurs valeurs peuvent être spécifiées en une fois, par ex. class="robots-nofollow robots-noindex"
. Pour l'exclusion de robot en particulier, ceci permet aux auteurs de spécifier plusieurs règles pour un élément sans ajouter quelque balisage supplémentaire non nécessaire.
Format
Profile URI
http://exemple.org/xmdp/robots-profile#
(obviously preliminary)
Les classes définie par le Profil Robot Exclusion devraient être considérées sans sens quand le profil URI n'est pas présent dans le document attribut profile
du <head>
.
XMDP Profile
<dl class="profile"> <dt id="robots-nofollow">robots-nofollow</dt> <dd> Informs robots that links contained by the element are not to be followed. </dd> <dt id="robots-follow">robots-follow</dt> <dd> Informs robots that links contained by the element are to be followed. </dd> <dt id="robots-noindex">robots-noindex</dt> <dd> Informs robots that the content of the element is not to be included as part of the page. </dd> <dt id="robots-index">robots-index</dt> <dd> Informs robots that the content of the element is to be included as part of the page. </dd> <dt id="robots-noarchive">robots-noarchive</dt> <dd> Informs caching robots that the content of the element is not to be included in their cached copy. </dd> <dt id="robots-archive">robots-archive</dt> <dd> Informs caching robots that the content of the element is to be included in their cached copy. </dd> </dl>
Examples
Removing page content:
<head profile=”http://example.org/xmdp/robots-profile#”> ... <div class=”robots-noindex”>There once was a man from Nantucket…</div> <p>This page is not about <span class=”robots-noindex”>pornography</span>.</p>
Showing nofollow
in conjunction with votelinks, and applying it in parallel with relnofollow:
<head profile=”http://example.org/xmdp/robots-profile#”> ... <p class=”robots-nofollow”>This is <a href=”http://example.com/bogus”>a bogus link</a> and so is <a href=”http://example.net/bogus”>this</a>.</p> <p>I don't like <a rel="nofollow" rev="vote-against" class="robots-nofollow" href="http://example.com/disagree">this page</a> but I do like <a rev="vote-for" href="http://example.com/agree">this one</a>.</p>
Preventing images from being stored by search engines, forcing them to be retrieved from the originating website:
<head profile="http://example.org/xmdp/robots-profile#"> ... <p><img src="example.png" class="robots-noarchive" alt="Private image" /></p>
A more complex example is available which also shows how the robots metadata may be visualized.
References
Normative
Informative
- A Standard for Robot Exclusion
- Googlebot Frequently Asked Questions
- The ROBOTS META Tag
- RelNoFollow Draft Specification
- This page was contributed from the technorati developers' wiki.
Thanks
Issues
These are open issues that have been raised in various forums. The "efficacy" and "collateral damage" issues from rel="nofollow" also apply.
Precedence
- Should earlier values take precedence or later? Does
class="robots-nofollow robots-follow"
means the same asclass="robots-nofollow"
orclass="robots-follow"
? meta
tag suggests not using conflicting or repeating directives and so does not specify precedence- Interaction with relnofollow: what does
class="robots-follow" rel="nofollow"
mean? Currently relnofollow has no profile URI defined, so the Robot Exclusion Profile takes precedence. In the future, per XMDP's Using Multiple Profiles,the URIs in the 'profile' attribute are to be treated most significant (first) to least significant (last).
Specificity
- Does not allow control of specific UAs à la A Standard for Robot Exclusion
If it is actually necessary to control specific UAs here is an possible soluiton. Example:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html> <head> <link rel="schema.RobotExclusion" href="http://example.org/.../" /> <meta name="RobotExclusion.RobotName1" content="Foo Bot" /> <meta name="RobotExclusion.RobotName2" content="Bar Bot" /> <meta name="RobotExclusion.RobotName3" content="Evil Bot" /> </head> <body> <h1>Page</h1> <p class="robots-noindex">This paragraph shouldn't be indexed by any bot.</p> <p class="robot3-noindex">This paragraph should be indexed by every bot except "Evil Bot".</p> <p class="robots-noindex robot1-index">This paragraph should be indexed by any bot except "Foo Bot".</p> </div> </body> </html>
Of course it is a waste of bandwith if there are "RobotExclusion.RobotName" meta tags on every page of a website. Thus this metatags should be stored on one page - perhaps the main page - so they can be maintained easily.
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html> <head> <link rel="schema.RobotExclusion" href="http://example.org/.../" /> <link rel="RobotExclusion.Names" href="http://mypage.com/" /> </head> <body> <h1>Page</h1> <p class="robots-noindex">This paragraph shouldn't be indexed by any bot.</p> <p class="robot3-noindex">This paragraph should be indexed by every bot except "Evil Bot".</p> <p class="robots-noindex robot1-index">This paragraph should be indexed by any bot except "Foo Bot".</p> </div> </body> </html>
Keywords
- The keywords
all
andnone
are defined by the Robots META Tag as convenience shortcuts to enable or disable the combination ofnofollow
andnoindex
, but predate Google'snoarchive
and should not be considered to include it. As a result, for purposes of clarity and simplicity (the XMDP Minimalism principle), they are not included in this version of the Robot Exclusion Profile.
Suitability as a microformat
- Isn't the Robot Exclusion Profile designed for machines first and humans second instead of vice versa? Yes, just as much as relnofollow, the deployed microformat that it's designed to replace.
- I'd like to echo this concern. We need to discuss whether or not this is a suitable microformat. --RyanKing 13:34, 17 Jan 2006 (PST)