Google, Bing et les autres

Internet est en grande partie désorganisé, et les informations sur ses pages Web sont de qualité très variable, telles que des informations commerciales, des annuaires nationaux, des collections de guides de recherche et des sélections de documents personnels. Les moteurs de recherche comme Google essaient de déterminer les pages Web fiables en les pondérant ou en les classant en fonction de la quantité d’autres pages qui y font référence, en identifiant les « autorités » auxquelles font référence de nombreuses pages et en identifiant les « hubs » qui font référence à de nombreux pages. Ces méthodes peuvent fonctionner correctement, mais le consommateur doit toujours s’entraîner à choisir les combinaisons appropriées d’expressions de recherche. Une recherche d’institution financière peut donner lieu à d’innombrables millions de pages Web (« hits »), dont beaucoup proviennent d’institutions bancaires industrielles. Une recherche d’institution financière fluviale peut encore renvoyer plus de dix millions de pages Web, dont beaucoup proviennent d’institutions bancaires avec un flux dans le titre. Seuls d’autres améliorations telles que l’institution financière du ruisseau et les riverains réduisent le nombre de visites à des milliers et des milliers de pages Web, les plus importantes concernant les estuaires et les rivières ainsi que leurs institutions bancaires. Les moteurs de recherche utilisent des robots, des applications qui enquêtent sur Internet en suivant des hyperliens hypertextes d’une page Web à l’autre, en enregistrant tout sur une page (appelée mise en cache) ou des zones d’une page Web, ainsi qu’un moyen exclusif d’étiqueter le contenu dans l’ordre pour construire des indices pondérés. Les sites Web se composent souvent de leurs propres balises sur les pages Web, qui ne sont généralement remarquées que par les robots d’exploration, afin d’améliorer la correspondance entre les recherches et leurs sites. Les abus de cet étiquetage volontaire peuvent fausser les résultats des moteurs de recherche s’ils ne sont pas pris en compte lors de la création des moteurs de recherche. De même, un utilisateur doit savoir si un moteur de recherche Internet particulier met aux enchères des mots-clés et des expressions, en particulier si les sites Web qui ont acheté un emplacement préférentiel ne sont pas indiqués séparément. Même les moteurs de recherche de base les plus importants, tels que Google, Google !, Baidu et Bing, ne sont pas en mesure de maintenir la prolifération des pages Web, et chacun laisse simplement de grandes portions à découvert. hyperlien, un lien entre des éléments de détails liés par des connexions numériques afin de permettre à un utilisateur un accès facile entre eux. L’hypertexte, un hyperlien impliquant un contenu textuel, est une fonction de certaines applications qui permettent à l’utilisateur de médias numériques de choisir un mot dans le contenu textuel et d’obtenir plus d’informations relatives à ce mot, comme une description ou des références associées dans le texte. Dans l’article « baleine » d’une encyclopédie numérique, par exemple, un lien hypertexte à la mention de la baleine bleue permet au lecteur d’accéder au contenu de cette espèce en cliquant simplement sur les mots « baleine bleue » avec une souris. Le lien hypertexte est généralement indiqué en mettant en évidence le mot ou la phrase pertinent dans un contenu textuel ayant une police ou une couleur différente. Les backlinks peuvent également connecter du texte avec des images, des sons ou des séquences de dessins animés. Les hyperliens entre différentes parties d’un document ou entre divers documents créent une structure de branchement ou de réseau qui peut accueillir des sauts immédiats et sans intermédiaire vers des bits d’informations associées. La structure arborescente des détails liés par des hyperliens contraste avec le cadre linéaire d’une encyclopédie ou d’un dictionnaire imprimé, par exemple, dont les éléments ne pourraient en réalité être atteints qu’au moyen d’une séquence fixe et linéaire d’éléments par ordre alphabétique. Les backlinks sont, dans un sens, des recommandations transversales qui paient pour un accès immédiat à leurs informations cibles. De tels hyperliens sont plus efficaces lorsqu’ils sont utilisés sur un large éventail d’informations qui sont structurées en de nombreux éléments connexes de plus petite taille, de sorte qu’un individu ne demande qu’une petite partie d’informations à un moment donné. Les backlinks ont été utilisés avec le plus de succès par les sites Web sur Internet. Pour prendre en charge cette masse de données sans précédent, Google a construit 11 centres d’information dans le monde, chacun d’eux contenant plusieurs centaines de milliers de serveurs Web (essentiellement des ordinateurs personnels multiprocesseurs et des disques durs installés dans des étagères spécialement conçues). Les systèmes informatiques interconnectés de Google s’élèvent probablement à plusieurs milliers. Le cœur de la procédure de Google, néanmoins, est construit autour de trois morceaux de code informatique exclusifs : Google File System (GFS), Bigtable et MapReduce. GFS gère l’espace de stockage des données en « morceaux » sur un certain nombre de machines ; Bigtable est le système de base de données de l’entreprise ; et MapReduce est utilisé par les moteurs de recherche pour générer des données de niveau supérieur (par exemple, en assemblant un index de pages Web contenant le texte « Chicago », « théâtre » et « participatif »).