Définition User-Agent
User Agent est une expression très souvent utilisé sur internet. Nous avons donc pensé utile de vous décrire ce qu’est un User-Agent vu que sur Wikipédia on peut lire : « Un user agent est une application cliente utilisée avec un protocole réseau particulier » et que c’est difficile de comprendre pour un novice en informatique.
Donc pour que tout le monde comprenne un user-agents c’est l’identification d’un navigateur internet ou d’un robot d’indexation. Tout ce qui est capable de lire un site internet possède un user-agent.
Par exemple quand vous visitez un site internet des informations concernant votre navigateur sont envoyé au serveur du site internet pour vous identifier. Ces informations transite dans une requête http (le protocole de communication internet) et contiennent des données sur votre configuration comme le nom du navigateur web utilisé, sa version, votre système d’exploitation, la langue par défaut de votre navigateur…
Les moteurs de recherche aussi laisse un user-agent quant ils visitent votre site internet. Il contient généralement le lien de la page de présentation de leur robot d’exploration, leur email, la version du robot…
La liste noire des user-agents
Sur votre site vous pouvez interdire l’exploration de certains moteurs de recherche ou outil de spammeur grâce à leur user-agent. Pour cela il suffit de les insérer dans un fichier robots.txt et de le placer à la racine de votre site web.
Interdire ces user agents vous permet d’interdire l’accès à certains robots spammeurs, aspirateurs de sites et moteurs de recherche pour toutes les pages ou une partie de votre site. Cela permet également de ne pas utiliser votre bande passante inutilement.
Cependant il faut savoir que les user agent peuvent être falsifié. C’est souvent le cas des outils utilisé par les spammeurs pour ne pas se faire identifier.
Liste anti-spammeurs :
User-agent: EmailCollector User-agent: EmailSiphon User-agent: WebBandit User-agent: EmailWolf User-agent: ExtractorPro User-agent: SiteSnagger User-agent: LNSpiderguy User-agent: Black Hole User-agent: WebStripper User-agent: CherryPicker User-agent: OmniExplorer_Bot User-agent: BIGLOTRON (BETA 2;GNU/Linux) Disallow: /
Liste anti-aspirateur :
User-agent: Fasterfox User-agent: Alexibot User-agent: asterias User-agent: BackDoorBot/1.0 User-agent: Black Hole User-agent: BlowFish/1.0 User-agent: BotALot User-agent: BuiltBotTough User-agent: Bullseye/1.0 User-agent: BunnySlippers User-agent: Cegbfeieh User-agent: CheeseBot User-agent: CherryPicker User-agent: CherryPickerElite/1.0 User-agent: CherryPickerSE/1.0 User-agent: CopyRightCheck User-agent: cosmos User-agent: Crescent User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0 User-agent: DISCo Pump 3.1 User-agent: DittoSpyder User-agent: EmailCollector User-agent: EmailSiphon User-agent: EmailWolf User-agent: EroCrawler User-agent: ExtractorPro User-agent: Foobot User-agent: Harvest/1.5 User-agent: hloader User-agent: httplib User-agent: humanlinks User-agent: InfoNaviRobot User-agent: JennyBot User-agent: Kenjin Spider User-agent: LexiBot User-agent: libWeb/clsHTTP User-agent: LinkextractorPro User-agent: LinkScan/8.1a Unix User-agent: LinkWalker User-agent: lwp-trivial User-agent: lwp-trivial/1.34 User-agent: Mata Hari User-agent: Microsoft URL Control - 5.01.4511 User-agent: Microsoft URL Control - 6.00.8169 User-agent: MIIxpc User-agent: MIIxpc/4.2 User-agent: Mister PiX User-agent: moget User-agent: moget/2.1 User-agent: NetAnts User-agent: NetAttache User-agent: NetAttache Light 1.1 User-agent: NetMechanic User-agent: NICErsPRO User-agent: Offline Explorer User-agent: Openfind User-agent: Openfind data gathere User-agent: ProPowerBot/2.14 User-agent: ProWebWalker User-agent: psbot User-agent: QueryN Metasearch User-agent: RepoMonkey User-agent: RepoMonkey Bait & Tackle/v1.01 User-agent: RMA User-agent: SiteSnagger User-agent: SpankBot User-agent: spanner User-agent: SuperBot User-agent: SuperBot/2.6 User-agent: suzuran User-agent: Szukacz/1.4 User-agent: Teleport User-agent: Telesoft User-agent: The Intraformant User-agent: TheNomad User-agent: TightTwatBot User-agent: Titan User-agent: toCrawl/UrlDispatcher User-agent: True_Robot User-agent: True_Robot/1.0 User-agent: turingos User-agent: URLy Warning User-agent: VCI User-agent: VCI WebViewer VCI WebViewer Win32 User-agent: Web Image Collector User-agent: WebAuto User-agent: WebBandit User-agent: WebBandit/3.50 User-agent: WebCopier User-agent: webcopy User-agent: WebEnhancer User-agent: WebmasterWorldForumBot User-agent: webmirror User-agent: WebReaper User-agent: WebSauger User-agent: website extractor User-agent: Website Quester User-agent: Webster Pro User-agent: WebStripper User-agent: WebStripper/2.02 User-agent: WebZip User-agent: WebZip/4.0 User-agent: Wget User-agent: Wget/1.5.3 User-agent: Wget/1.6 User-agent: WinHTTrack User-agent: WWW-Collector-E User-agent: Xenu's User-agent: Xenu's Link Sleuth 1.1c User-agent: Zeus User-agent: Zeus 32297 Webster Pro V2.9 Win32 User-Agent: MJ12bot User-agent: HTTrack User-agent: HTTrack 3.0 User-agent: TurnitinBot User-agent: QuepasaCreep Disallow: /
Par exemple si on veut interdire le robot de Google on mettra la ligne suivante dans le fichier robots.txt :
User-agent: googlebot
Ou la ligne suivante pour interdire tous les user agent :
User-agent: *
Pour différentes raisons Vous pouvez aussi identifier l’user agent de vos visiteurs avec différent langage de programmation :
En ASP :
Request.ServerVariables("HTTP_User_Agent")
En PHP :
$_SERVER['HTTP_USER_AGENT']
En PERL (CGI) :
$ENV{'HTTP_USER_AGENT'}
Mais ses informations peuvent être fausse car c’est de plus en plus facile de modifier son user agent. Exemple en téléchargeant ce plugin pour firefox : User Agent Switcher
Popularity: 24% [?]
Consultez également :
Tags : aspirateurs de sites, internet, liste noir, moteurs de recherche, navigateur internet, protocole de communication, protocole de communication internet, protocole http, robot, Robots, user agent