Difference entre le deep web et le dark web

          Le deep Web

surface-web

     Le deep web, appelé aussi web invisible, décrit dans l'architecture du web, la partie du Net non indexée par les principaux moteurs de recherche connue.

          Comprendre le Web et Internet 

     Une rapide définition de ces deux concepts s'impose avant d'attaquer le cœur du sujet. Internet est un réseau de réseaux informatiques, composés de millions de réseaux aussi bien publics que privés.

     L'information y est transmise grâce à des protocoles HTTP ou HTTPS de transferts de données qui permettent l'élaboration d'un ensemble de services divers, comme le courrier électronique, le peer-to-peer ou encore le World Wide Web, plus communément appelé le Web.

     Autrement dit, le Web est une application parmi tant d'autres qui utilise Internet et ses millions de réseaux comme un support physique et un moyen de transport, à l'image des mails. C'est un réseau d'informations constitué par des milliards de documents dispersés sur des millions de serveurs dans le monde et reliés les uns aux autres selon le principe de l'hypertexte.

     On compare souvent le web à une toile d'araignée car les liens hypertexte reliant les documents entre eux pourraient s'apparenter comme les fils d'une toile et les documents aux noeuds où se croisent ces fils.

     Et le web est lui-même composé de deux parties : le web visible et le web invisible, plus communément appelé le Deep Web. Mais pour comprendre ce qu'est vraiment le Deep Web, il convient d'abord de parler du web visible, des robots d'indexation, du web opaque et des ressources profondes.

     Le web visible, appelé aussi le web surfacique est le contenu d'internet qui peut être accessible via les moteurs de recherche classiques comme Mozilla Firefox, Internet Explorer, Google Chrome, Yahoo, Bing etc... Il comprend donc tous les sites et pages indexés et référencés par ces moteurs de recherche.

     Par exemple, lorsque vous tapez "dailytechmonde" sur Google, vous trouvez le lien direct vers site web. Autrement dit une page indexée sur un site web référencé. Pour vous proposer cette page, le moteur de recherche en question a effectué une recherche dans une base de données qu'il a créée au préalable en indexant toutes les pages web possibles.

     Il a ainsi, bien avant, essayé de comprendre le contenu de toutes ces pages afin de pouvoir les proposer à l'utilisateur lorsque celui-ci effectue une recherche par mots-clés. Je parle de mots-clés car c'est ce qu'on utilise la plupart du temps avec les différents moteurs de recherche.

     Pour découvrir de nouvelles pages et mettre constamment à jour leurs bases de données, les moteurs de recherche utilisent certains programmes, les fameux robots d'exploration et d'indexation qui suivent les hyperliens.

web-indexation


     On peut aussi parler de "crawlers" ou encore de "bots", qui est d'ailleurs la simple contraction du terme "robots". Une fois un site web indexé par ces robots, son contenu peut alors être trouvé à la demande.

     Mais malgré des moyens matériels importants, les robots d'exploration ne sont pas capables de suivre tous les liens théoriquement visibles que le Web contient. Pour étudier le comportement des robots d'exploration face à des sites contenants énormément de pages, une équipe de chercheurs allemands a par exemple créé un site web composé de plus de 2 milliards de pages.

     Ce site web se basant sur une structure binaire et étant très profond, il fallait au minimum 31 clics pour arriver à certaines pages. Ils ont ainsi laissé ce site en ligne pendant 1 année sans le modifier. Et les résultats ont montré que le nombre de pages indexées pour ce site, dans le meilleur des cas, ne dépassait pas 0,0049 %. Cette partie du web, théoriquement indexable, mais non-indexée de fait par les moteurs est surnommée le "web opaque", qui se situe pile poil entre le web visible et le deep web.
Donc, le web visible peut être indexé et c'est le cas. Le web opaque peut être indexé, mais ne l'est pas.

          Le Deep web ne peut pas être indexé

     Pour qu'un site web soit indexé par les robots d'exploration, puis placé dans la base de données par les robots d'indexation et qu'ainsi ces pages soient référencées par les moteurs de recherche, il faut qu'il respecte certaines normes.

     Ces normes concernent aussi bien le format, que le contenu ou l'accessibilité des robots sur le site. A savoir qu'un site web peut avoir en même temps des pages qui ne respectent pas ces normes et des pages qui les respectent, auquel cas seules ces dernières seront référencées.

     Tous les sites web accessibles directement via les moteurs de recherche respectent donc un minimum ces normes. Les pages référencées de la totalité de ces sites forment ce qu'on appelle le web visible : la partie du web qui respecte ces normes. Mais il ne représenterait que 4% de la totalité du web.

     Les 96 % restants sont ce qu'on appelle les ressources profondes : des pages qui existent bel et bien sur le web, mais qui ne sont pas référencées par les moteurs de recherche pour de multiples raisons.

     A commencer par le non-respect des normes établies, mais pas que. Ces ressources profondes qui représenteraient donc 96% de l'intégralité du web forment ce qu'on appelle le "Deep Web", appelé aussi le web invisible, le web caché ou le web profond.

     Je parle de pourcentage au conditionnel car ce ratio varie selon les études qui ont été menées. Par exemple selon certains spécialistes en 2008, le Deep web ne représenterait en fait qu’entre guillemets, 70% du Web, soit environ à l'époque un trilliard de pages non-indexées.

     Une étude de juillet 2001 réalisée par l'entreprise BrightPlanet avait quant à elle estimé que le Deep Web pouvait contenir 500 fois plus de ressources que le web visible. Selon Chris Shermann et Gary Price dans leur livre "The Invisible Web", le web visible représenterait 3 à 10% du Web, donc 90 à 97% pour le Deep Web. D'après un chercheur canadien fin 2013, ce serait plus de l'ordre de 10% pour le web visible et 90% pour le Deep Web. Et selon une étude publiée dans la revue Network, toute recherche sur Google fournirait simplement 0,03% des informations qui existent en ligne. Donc 1 page sur 3000 existantes.

     Le pourcentage qui ressort le plus souvent reste quand même 4% pour le web visible et 96% pour le Deep Web. Gardez juste en tête que le web visible n'est en fait qu'une infime partie de l'intégralité du Web.

     Et c'est pourquoi la métaphore de l'iceberg est souvent utilisée comme représentation. La partie émergée représente le web visible, et la partie immergé, les fameuses ressources profondes qui forment le Deep web.

     D'ailleurs ces ressources, en plus d'être volumineuses, sont souvent de très bonne qualité, car la compression des fichiers y est moins conséquente. Mais revenons à l'indexation. Il existe une multitude de sites, de pages et documents, que les moteurs de recherche classiques ne peuvent pas référencer. Soit parce qu'ils n'ont tout simplement pas accès à ces pages, soit parce qu'ils ne peuvent pas les comprendre.

     Il existe une multitude de raisons, mais si on devait lister les principales, il s'agirait :

* Le contenu non lié.
* Le contenu de script.
* Le format non indexable.
* Le contenu trop volumineux.
* Le contenu privé.
* Le contenu à accès limité.
* L'Internet Des Objets.
* Le contenu dynamique.
* Le contenu sous un nom de domaine non standard.

     Il va de soi que certains sites web cumulent plusieurs de ces facteurs. Pour ce qui est du contenu non lié, certaines pages de site ne sont tout simplement pas reliées entre elles par des liens hypertextes, et ne peuvent donc pas être découvertes par les robots d'indexation qui suivent uniquement les hyperliens. C'est ce qu'on appelle des pages sans backlinks.

     Pour ce qui est du contenu de script, certaines pages web contiennent des scripts comme Javascript ou autres, qui peuvent parfois bloquer l'accès aux robots, souvent sans le faire exprès. L'utilisation du langage Javascript, parfois mal compris par les robots, pour lier les pages entre elles, constitue également un frein à leur indexation.

     Pour ce qui est du format non indexable, le Deep Web est également constitué de ressources utilisant des formats de données incompréhensibles par les moteurs de recherche. Cela a été par exemple par le passé, le cas du format PDF, ou ceux de Microsoft Office, comme Excel, Word ou PowerPoint. Le seul format reconnu initialement par les robots était le langage natif du web, à savoir l'HTML Mais les moteurs de recherches s'améliorent peu à peu pour réussir à indexer le plus de formats possibles Aujourd'hui, ils arrivent ainsi à reconnaître en plus de l'HTML, le format PDF, ceux de Microsoft Office, et depuis 2008, les pages au format flash.

     Pour ce qui est du contenu trop volumineux, les moteurs de recherche classiques n'indexent qu'entre 5 et 60% du contenu des sites accumulant de grandes bases de données. C'est le cas par exemple du National Climatic Data Center avec ses 370 000 Go de données, ou encore du site de la NASA avec ses 220 000 Go. Les moteurs indexent donc partiellement ces pages volumineuses. Google et Yahoo s'arrêtent par exemple d'indexer à partir de 500 Ko.

     Pour ce qui est du contenu privé, certaines pages sont inaccessibles aux robots, du fait de la volonté de l'administrateur du site web. L'utilisation du fichier "robots.txt" inséré dans le code d'un site, permet de n'autoriser l'indexation que de certaines pages ou documents du site et ainsi de protéger son copyright.

     Par exemple, si vous ne voulez pas que certaines des images ou photos présentes sur votre site apparaissent sur Google Images, ou encore de limiter les visites et de préserver le site d'accès trop fréquents.

google-console


    Mais il n'est pas rare qu'un robots.txt mis à la racine d'un site web bloque complètement l'indexation et le référencement de l'intégralité du site. Certaines personnes choisissent en effet délibérément de ne pas référencer leur site pour privatiser l'information.

     La seule façon d'accéder à leur page est donc de connaître l'URL de leur page dans son entièreté. Le développeur du site peut alors choisir de diffuser l'adresse à quelques personnes d'une communauté bien spécifique, par exemple sur un forum comme Reddit ou 4chan, et ces derniers peuvent ensuite la faire circuler grâce au bouche-à-oreille C'est exactement le même fonctionnement que les serveurs Discord par exemple.

     C'est ce qu'on appelle plus couramment le web privé qui est une catégorie connexe à celle du Deep Web, et qui se rapproche pas mal du fonctionnement des Dark Net.

     Pour ce qui est du contenu à accès limité, certains sites web nécessitent une authentification avec un login et un mot de passe pour pouvoir accéder au contenu. C'est ce qu'on appelle plus couramment le web propriétaire.

     C'est le cas par exemple de certains sous-forums, ou encore de certains sites avec des archives payantes, comme les journaux en ligne qui requièrent parfois un abonnement. Certains sites également obligent à remplir un captcha, autrement dit un test de Turing, pour prouver que vous êtes humain et ainsi accéder au contenu.

     D'autres sites encore, demandent parfois de remplir un formulaire de critères de recherche pour pouvoir accéder à une page précise. C'est le cas par exemple de sites exploitant des banques de données.

     En ce qui concerne l'Internet Des Objets, appelé aussi l'IDO ou l'IOT, l'Internet of Things, c'est le regroupement ou plutôt le réseau de tous les objets physiques connectés ayant leur propre identité numérique et capables de communiquer les uns avec les autres.

     D'un point de vue technique, l'IOT consiste en l'identification numérique directe d'un de ces objets, grâce à un système de communication sans fil, qui peut tout aussi bien être le Wifi comme le Bluetooth.

     Or certains ont un URL pourtant bien en HTTP, mais ne sont pas indexés par les moteurs de recherche classiques, car d'une part, ça ne servirait à rien. Et d'autre part, ça pourrait mener à certaines dérives.

     Mais certains moteurs de recherche spécialisés comme Shodan, se fichent de ces dérives et vous permettent de faire des recherches bien plus approfondies, notamment dans l'Internet Des Objets.
Vous pouvez alors tomber sur des pages spécialisées pour la connexion à des objets connectés. Avec par exemple des suivis de véhicules en temps réels, ou encore des périphériques vidéos peu protégés. Ça peut tout aussi bien être des caméras de surveillance, comme des webcams de particuliers qui ne demandent aucun mot de passe pour l'accès.

     Vous comprenez ainsi les problèmes que ça peut engendrer. J'en profite pour vous conseiller de toujours débrancher votre webcam lorsque vous ne l'utilisez pas. Et si elle est comprise dans votre ordinateur portable, mettez au moins quelque chose dessus pour cacher la caméra. Auquel cas par contre le micro de votre webcam sera toujours opérationnel, ne l'oubliez pas. C'est pour ça qu'il est toujours préférable de carrément débrancher quand on peut, plutôt que de simplement cacher l'objectif.

     Pour ce qui est du contenu dynamique, les sites web contiennent en effet de plus en plus de pages dynamiques. Or dans ce cas de figure, les hyperliens de navigation sont générés à la demande et diffèrent d'une visite à l'autre.

     En gros, le contenu des pages fluctuent en fonction de plusieurs paramètres et les liens changent en fonction de chaque utilisateur, ce qui empêche donc l'indexation.

     Par exemple, imaginons que vous voulez prendre un ticket pour aller de Paris à Marseille. Vous tapez SNCF sur Google, vous vous rendez sur le site, puis sur la page de recherche, et vous saisissez vos informations dans un formulaire, comme les noms des villes, votre classement, votre tranche d'âge, les jours, les horaires, etc... Une fois confirmé, vous arrivez alors sur une page de la SNCF bien définie, générée grâce à des filtres dans sa banque de données, suite aux informations que vous avez pu lui fournir.

     Cette page qui vous indique des horaires de trains bien spécifiques avec les tarifs disponibles, vous ne pouvez pas la trouver directement en faisant une recherche Google avec des mots-clés, on est d'accord.

     C'est donc une page qui n'est indexée par aucun moteur de recherche. J'imagine que vous avez déjà tous fait ce genre de recherche SNCF au moins une fois. Et bien félicitations ! Vous étiez à ce moment-là dans le deep web.

     Enfin pour ce qui est du contenu sous un nom de domaine non standard, il s'agit de sites web avec un nom de domaine dont la résolution DNS n'est pas standard, avec par exemple une racine qui n'est pas enregistrée chez l'ICANN. L'Internet Corporation for Assigned Names and Numbers. Autrement dit, la société pour l'attribution des noms de domaine et des numéros sur Internet.

     Les racines de noms de domaines connus par l'ICANN, sont les .COM, .FR, .CO, .GOUV et bien d'autres suivants les pays. Mais il en existent des non standards seulement accessibles via des serveurs DNS bien particuliers.

     Les Domain Name System, les systèmes de noms de domaines, sont des services permettant de traduire un nom de domaine en informations de plusieurs types qui y sont associées. Notamment en adresse IP de la machine portant ce nom.

tor-onion
   

     L'exemple le plus connu et qui nous intéresse le plus est la racine  .onion dont la résolution n'est possible que via le navigateur Tor Browser sur le réseau Tor. Je parle ici du fameux Dark Net, permettant d'accéder à une grande partie de la face la moins accessible du Deep Web, à savoir le Dark Web.

     Dans tous les cas, il faut juste comprendre qu'il existe de très nombreux cas de figure pour lesquels les moteurs de recherche classiques sont incapables de référencer un site ou du moins certaines de ses pages.

     Toutes ces pages inaccessibles, tout du moins de façon directe via les moteurs de recherche sont donc appelées les ressources profondes et forment ce qu'on appelle le Deep Web.

     L'utilisateur lambda navigue donc tous les jours sur une partie mineure du Web, le web visible. Il lui arrive de temps en temps de naviguer sur le Deep Web sans qu'il ne s'en rende compte, comme avec l'exemple de la réservation SNCF.

     Après j'ai pris cet exemple, mais il y a plein d'autres cas où vous naviguez sur le Deep Web.
Par exemple lorsque vous consultez vos mails sur votre messagerie gmail, vous êtes sur le Deep Web.

     Quand vous consultez votre espace client sur le site de votre opérateur téléphonique, vous êtes sur le Deep Web.

     Lorsque vous consultez un document partagé sur Google Drive, vous êtes sur le Deep Web.

     Si vous êtes dans une entreprise qui a un réseau interne, souvent appelé l'intranet et que vous y allez, vous êtes sur le Deep Web.

     Quand vous parlez à vos amis sur un serveur Discord, vous êtes sur le Deep Web.

     Quand vous consultez vos comptes bancaires en ligne, vous êtes sur le Deep Web.

     Le Deep Web, c'est votre boite mail, vos espaces d'administration, le réseau interne de votre entreprise, des pages web dynamiques et énormément d'autres choses.

     Et le Deep Web risque d'ailleurs de représenter une part du web bien plus importante dans les années à venir, avec le Cloud qui prend de plus en plus d'ampleur.

     Tous les articles et reportages qui disent que vous ne naviguez tous les jours que sur le web visible ont donc tort. Certes, le web visible est sûrement celui que vous utilisez le plus. Mais j'imagine par exemple que vous consultez vos mails tous les jours, ce qui fait que vous allez sur le Deep Web tous les jours.

     Le Deep Web n'a rien de bon ou de mauvais comme certains pourraient le croire. C'est juste une spécificité technique. Il n'y a pas de côté obscur du Net, juste des zones ignorées par certains moteurs. Le problème, vous l'aurez compris, c'est qu’énormément d'articles et de reportages confondent le Deep Web et le Dark Web. Ils parlent du Dark Web en le nommant Deep Web, alors que ce n'est pas la même chose.

     Résultat, le Deep Web est diabolisé à tort par les médias et le grand public en retire une image complètement biaisée.

          La différence le Deep Web et le Dark Web

     Lorsque j'ai listé les principales raisons de la non indexation de certaines pages web, j'ai évoqué celles avec un nom de domaine non standard. Autrement dit des URL qui ne se finissent pas par .COM, .FR, .CO, .GOV et j'en passe suivant les pays.

     Des sites qui ne sont donc pas référencés par les moteurs de recherche classiques, du fait que leur nom de domaine ne soit pas enregistré chez l'ICANN. La majorité d'entre eux ont été créés pour échapper volontairement à tout référencement. Et leurs URL ne peuvent être traduites entre guillemets que via des serveurs DNS bien particuliers.

     L'exemple le plus connu est la racine  .onion dont la résolution n'est possible que via le Dark Net Tor permettant d'accéder à une grande partie de la face la moins accessible du Deep Web, à savoir le Dark Web.

     Ainsi, ce qu'on appelle le Dark Web, est une sous-partie du Deep Web et correspond à l'ensemble des pages qu'on ne peut accéder qu'en possédant un lien direct en .onion avec le Dark Net Tor.

     Là encore, ça n'a rien de bon ou de mauvais. C'est juste une spécificité technique. Et pourquoi je tiens également à différencier le Dark Net du Dark Web ? Car le Dark Web désigne le contenu et le Dark Net désigne l'infrastructure.

     C'est-à-dire les modalités techniques selon lesquelles ce contenu est créé et mis à disposition. Autrement dit, il n'y a pas qu'un seul Dark Net, mais plusieurs.

     Donc, je récapitule. Internet est un réseau de réseaux informatiques, composés de millions de réseaux aussi bien publics que privés qui font circuler toutes sortes de données.

     Le World Wide Web, ou le Web si vous préférez, est une application parmi tant d'autres, qui utilise Internet comme un support physique et un moyen de transport pour trouver ces données.

     Le Web a deux parties distinctes : le web visible et le web invisible, plus communément appelé, le Deep Web.

     Le Deep Web existe du fait d'un certains nombres de raisons qu'on a pu voir. Et l'une d'entre elles concerne les noms de domaines spéciaux.

     Les réseaux regroupant ces sites avec ces noms de domaines spéciaux sont ce qu'on appelle les Dark Nets. Et le contenu qu'on trouve sur ces Dark Nets se nomme le Dark Web.

Comments