Les bases de données NoSQL du Big Data, décryptage
Les bases de données classiques, telles que nous les connaissons, sont des bases dites relationnelles, selon le modèle introduit par Edgar F. Codd en 1970. Elles sont gérées par des systèmes logiciels permettant de manipuler les données stockées dans des tables. Un langage standardisé s’est répandu pour exploiter ces bases, le fameux SQL. Aujourd’hui, les principaux éditeurs de ces bases sont Oracle, IBM, Microsoft.
Le 21e siècle est caractérisé par la croissance soutenue des volumes de données ; en 2020, 50 000 Gigaoctets seront créés en 1 seconde à l’échelle mondiale, en 1992 c’était 100 G. Google, un des principaux acteurs mondiaux en nombre d’utilisateurs, et un des pionniers, a dû mettre au point sa propre technologie pour pouvoir fournir en une fraction de seconde des résultats extraits parmi des milliards de pages web.
Autre challenge, la croissance constante du web, qui nécessite une croissance continue du nombre de serveurs pour indexer le web. Google ne pouvait pas s’appuyer sur les bases relationnelles classiques, car elles n’étaient pas distribuées ; autrement dit, quand un serveur opérant une base de données devient surchargé, on ne peut pas en ajouter un deuxième, il faut réinstaller sur un serveur plus puissant (scalabilité verticale). Google a dû développer une technologie nouvelle, nommée « Big Table », qui pose les fondations des bases distribuées ; lorsque la charge augmente, il devient possible d’ajouter des serveurs et la base se redéploie, offrant au final une puissance accrue (scalabilité horizontale). Cette technologie donnera naissance aux nouvelles bases de données extensibles, connues sous le nom de « bases NoSQL ».
Parmi les nouveaux acteurs des bases NoSQL on distingue : la fondation Apache, MangoDB, Marklogic, Couchbase, Amazon. « NoSQL » signifie, en sens primaire, abandon du SQL ; pourtant, certains lui prêtent aussi le sens de Not Only SQL, suggérant que le langage SQL peut aussi être utilisé pour exploiter les données ; la base de Marklogic, à titre d’exemple, supporte aussi le SQL.
En conclusion, l’émergence de nouveaux challenges en matière de volumes de données et de nombre d’utilisateurs ont fait émerger des bases de données d’un genre nouveau, les bases NoSQL. Cette technologie est le fondement des applications d’échelle mondiale, et de ce qu’on appelle la « Big Data ».