Home
AIDE
Accueil
Préférences
Aide

Contrôle du robot Mirago

Si vous souhaitez empêcher Mirago d' indexer votre site ou limiter l' action des robots à certaines parties de votre site, vous pouvez recourir à l' une des méthodes suivantes:

Meta tags

Mirago supporte l' utilisation des META tags "noindex" et/ ou "nofollow".

  • noindex empêchera le robot de Mirago d'indexer le contenu de votre page
  • nofollow empêchera le robot de Mirago de suivre les liens apparaissant sur votre page

Pour utiliser ces Meta tags sur une page, il vous suffit d' inclure le tag ci-après dans la partie HEAD de la page:

<META NAME="robots" CONTENT="noindex,nofollow">

N.B. Le robot Mirago n'indexe pas les meta tags 'keyword' et 'description'.

Protocole d'exclusion des robots

Mirago respecte le Standard for Robot Exclusion qui spécifie un format pour les fichiers robots.txt. Lorsque ce fichier est placé dans la racine d' un serveur, il permet au webmestre de refuser l' accès à tous les robots ou à certains robots et de déterminer les parties du site que les robots peuvent indexer. Ce fichier est régulièrement lu par Mirago et les permissions concernant le site sont modifiées en conséquence. Le fichier robots.txt doit être placé dans la racine du site. Il ne sera pas lu si placé dans un sous-répertoire.

N.B. si un fichier robots.txt n'est pas inséré dans la racine du serveur, les robots considèrent qu'ils peuvent indexer la totalité du domaine ou du sous-domaine sur la base que le site a été publié sur Internet pour un accès général. Si vous utilisez également des sous-domaines, le fichier robots.txt doit être présent dans la racine de chaque sous-domaine.

Vous pouvez indiquer aux robots que des parties de votre serveur ne doivent pas être indexées par certains robots ou par tous les robots.

L'exemple suivant illustre le contenu type d'un fichier robots.txt :

# robots.txt pour le site http://monsite.fr/
 
User-agent: HenryTheMiragoRobot
Disallow:
 
User-agent: vilainrobot
Disallow: /
 
User-agent: *
Disallow: /pas_franchir
Disallow: /monprojet

La première ligne, débutant par '#', spécifie un commentaire.

Les deux lignes suivantes signifient que Mirago a accès à l'ensemble du site. Ces lignes sont facultatives, car un robot va supposer qu'il peut accéder à la totalité du site sans la présence de directives disallow.

Le deuxième paragraphe indique que le robot appelé 'vilainrobot' ne peut accéder aux url débutant par /. Comme toutes les url d'un serveur commencent par /, cela signifie que le site entier ne peut être visité par ce robot.
N.B. Ne pas mettre plus d'un chemin par Disallow.

Le troisième paragraphe signifie que tous les autres robots ne doivent pas visiter les url commençant par /pas_franchir ou /monprojet. Il faut noter que le caractère * a une signification spécifique ici : il désigne 'tous les robots'. Ainsi n'écrivez pas Disallow:/monprojet/*' mais plutôt Disallow:/monprojet'. * user-agent peut être utilisé avant et aprés n'importe quel user-agent spécifique. Les user-agents spécifiques sont cherchés avant le * user-agent de défaut.

Pour des restrictions d'accès plus complexes nous supportons l'utilisation de user-agents multiples et la directive Allow.

Par exemple:

User-agent: robot1
 
Disallow: /stayout
Disallow: /devproject
 
User-agent: robot2
User-agent: robot3
User-agent: robot4
Disallow: /stayout
Allow: /devproject/beta
Disallow: /devproject
 
User-agent: robot5
Disallow: /
 
User-agent: HenryTheMiragoRobot
Disallow:
 

Dans cet exemple robot2, robot3 et robot4 se comportent tous de façon identique. L'entrée Disallow après robot5 est nécessaire afin que User-agent: Mirago débute un nouveau bloc, sans quoi Mirago partagerait le même bloc que robot5 de la même manière que robot2, robot3 et robot4 partagent un bloc.

Là où User-agent: Mirago est spécifié, * et '$' peuvent être utilisés afin de contrôler davantage l'accès à des documents spécifiques:

* peut être utilisé pour identifier des séries d'entrées (ex /devproject/client*.htm). Des * peuvent être inclus dans n'importe quelle ligne.

$ peut être utilisé afin de contrôler l'accès à un répertoire spécifique. Par exemple Disallow: /devproject/text$ interdira l'accès au fichier /devproject/text mais donnera toujours accès à /devproject/text.doc et /devproject/text/home.htm. L'entrée doit donc parfaitement correspondre pour que cela fonctionne.

N.B. Mirago doit être spécifié comme User-agent pour le bloc dans lequel ces extensions sont utilisées. La plupart des robots n'interprètera pas ces extensions de cette façon.

Parties de site protégées par un mot de passe

Les robots de Mirago utilisent des protocoles identiques à ceux d' un navigateur. Ils n' ont pas de système d' accès secret, ils ne peuvent donc pas visiter des documents se trouvant dans une zone d' authentification protégée par un mot de passe.

Supprimer votre site des index de Mirago

Nous espérons que l' inclusion de votre site dans les index de Mirago contribue à l' augmentation de votre trafic. Cependant nous enlèverons votre site de nos index sur simple demande. Pour cela il vous suffit de nous écrire à: remove.fr@mirago.com

Retour à la page Aide