On vous rappelle

Laissez-nous votre :




Référencement sur Google : des chiffres alarmants

Article rédigé par CERA Interactive, le

Selon des estimations, les pages web indexées par Google ne représenteraient que 10% de la totalité du web.





La portion du web qui n’est pas indexée est le plus souvent appellée « deep web », web profond, web invisible ou encore web caché en français. Comparable à la descente vers les Enfers, l’exploration se fait d’une manière progressive, des Champs Elysées jusqu’au Tartare. Les raisons pour lesquelles des pages web ne sont pas indexées sont nombreuses. La non indexation de pages a néanmoins une conséquence pour les détenteurs de sites Internet.


Mais qu’est-ce que le deep web ?


Il est dit qu’il contiendrait 550 fois plus de contenu que les sites indexés sur des moteurs de recherche classiques. On y retrouve en grande partie un marché noir, c’est à dire de la vente de drogues ou encore d’armes. On peut également y trouver des pirates informatiques ou encore des tueurs à gage. Le contenu des sites du deep web n’est pas aussi « saint » que l’est celui du web surfacique, c’est-à-dire toutes les pages des sites internet que l’on peut retrouver sur des moteurs de recherche tels que Google ou encore Bing.
L’accès au deep web n’est pas simple. En effet, la majeure partie de ces sites n’est accessible uniquement si l’on possède leur URL ou bien la clé pour les décrypter. Les pages sont extrêmement sécurisées. L’accès se fait par des routeurs décentralisés et des réseaux d’anonymisation tels que TOR (The Onion Rooter), Freenet ou encore I2P. TOR est un réseau mondial décentralisé de routeur qui offre la possibilité de rendre tout échange anonyme. Il est cependant impossible techniquement de surfer sur Internet en étant à 100% invisible.
De part la présence de nombreux hackers et de mouchards sur le deep web, il est assez dangereux d’y accéder sans avoir de connaissances en informatique.
Le deep web se divise en plusieurs catégories. En effet, il y a le web opaque contient des sites indexables mais non indexés pour une ou plusieurs raisons. Le web anonyme quant à lui comprend des sites Internet n’étant accessibles uniquement depuis un moteur de recherche spécialisé tel que BASE, car les moteurs de recherche classiques ignorent tout simplement ces sites. Ils offrent souvent de la documentation dans des domaines spécialisés et son construits à partir d’une grande base de données. Le web sombre définit toutes les pages cryptées et hautement sécurisées par leur créateur dont l’accès ne se fait qu’en connaissant le lien ainsi que le moyen de décrypter les informations y figurant. Ces pages ont souvent un contenu très questionnable et on pourrait qualifier le web sombre de porte vers les Enfers.


iceberg niveaux

Les raisons pour lesquelles des sites ne sont pas indexés


Déjà pour privatiser l’information ; aussi parce que certains documents sont trop volumineux ou encore certaines bases de données sont trop complexes pour que leurs contenus soient indexés.
Comme on pourrait s’en douter, cela permet de dissimuler des réseaux mafieux. On ne peut que remarquer en effet l’abondance de marchés clandestins (les acheteurs sont rarement inquiétés, les autorités recherches plus spécifiquement les gros revendeurs de drogue ou fondateurs de sites à contenu illicite…). C’est aussi bien entendu un lieu de « promenade » paradisiaque pour hackers.
A savoir que les algorithmes de Google explorent le web de lien en lien. Certains sites n’ont pas d’index, ou leur structure est parfois trop complexe. Des webmasters peuvent encore refuser d’être indexés, via une ligne de code, ou restreindre l’accès à un site par un mot de passe. Enfin, il est possible de « cacher » un domaine via le réseau d’anonymisation TOR : Le trafic rebondit aux quatre coins du monde en passant par ce que l’on appelle des « nœuds ». La destination finale est cryptée à de multiples reprises pour rendre l’internaute anonyme en dissimulant son origine (son adresse IP) et sa destination (le serveur).
Quelques VPN (virtual private network: réseau privé virtuel) ne gardent réellement aucune trace des connexions. Interpol, le FBI ou n’importe quelle organisation ne pourra rien y faire puisqu’il n’y a aucun log, et donc rien à trouver. Certains sites exploitent des banques de données.


schema tor

Les moteurs de recherche possèdent des programmes appelés « robots d’indexation » qui parcourent le web à la recherche de liens hypertexte pour découvrir de nouvelles pages. Mais certaines pages sont isolées, indépendantes ou parfois écrites dans des formats illisibles par ces robots. Certains sites ne sont pas liées par d’autres pages et ne peuvent pas être découvertes par les robots d’indexation ce contenu est connu comme des pages sans backlinks.
Concrètement, des sites nécessitent une authentification avant d’accéder au contenu réel comme les journaux en ligne ou encore des bases de données de météorologie, etc. pouvant atteindre des téraoctets de données. La conception des pages web peut rendre difficile leur indexation. Un robot n’est pas capable d’émettre des requêtes pertinentes ; sa visite d’indexation se réduit donc aux seules pages accessibles en suivant des URL statiques.
La non-indexation de site Internet peut aussi être du à l’utilisation du langage JavaScript incompris par les robots, pour lier les pages entre elles, ce qui constitue souvent un frein à leur indexation.
Le web invisible est également constitué des ressources utilisant des formats de données incompréhensibles par les moteurs de recherche.


Exemple de configuration réseau avec TOR :

interface tor

Les conséquences


Certains créateurs et détenteurs de sites ne sont pas référencés sur les moteurs de recherches les plus connus. Parfois, ceci relève d’un choix personnel, or dans d’autres cas c’est une conséquence de l’utilisation d’un langage trop complexe pour les robots référençant les sites ou encore de bases de données trop vastes.
Avoir un site, c’est bien, mais bien le référencer c’est mieux. En effet, il n’y a pas d’intérêt à avoir un site pour votre entreprise si personne ne peut le trouver. Nous sommes une entreprise de création de sites Internet également spécialisée dans le référencement. Si vous voulez améliorer le référencement de votre site Internet, n’hésitez pas à faire appel à nous !



Article rédigé par Elodie MOREAU, Marie CASTELLA et Julien THIERY.
Référencement sur Google : des chiffres alarmants

Réagir ?

Envoyez-nous vos réactions et commentaires via notre page Contact !


Dernières actualités...

Référencement : l’influence des réseaux sociauxJouer à Pokemon Go : c'est possible en France !STRASBOURG : Les endroits où se rendre pour la fête de la musique (2016) ECONOMIE - Un souffle de crise dans les CHR

En direct



Avis aux webmasters

rose d'or

Vous pouvez recopier cet article sur votre site en indiquant que la source vient de CERA Interactive, par exemple en faisant un lien de la manière suivante :

<p> Article <a href="http://www.cera-interactive.fr"> CERA Interactive </a> : <a href="http://www.cera-interactive.fr/cera-strasbourg/actu-du-web.php?actu=130808-referencement-web"> Référencement sur Google : des chiffres alarmants </a> </p>


⇐ Retour aux actualités CERA Interactive
illustration de l'article CERA

Référencement sur Google : des chiffres alarmants

Des questions à ce sujet ?

Contactez-nous ! rose d'or

Vous aimez cette page ? Partagez-la sur les réseaux sociaux !






Copyright© 2010-2016 CERA Interactive - Tous droits réservés.