Hadoop est un framework open source permettant de créer des applications capables de stocker et de traiter une masse importante de données en mode batch. Cette plateforme libre a été inspirée de MapReduce, Big Table et Google FS. Concrètement, Hadoop est constitué d’une partie destinée au stockage des données baptisée Hadoop Distributed File System ou HDFS et d’une partie assurant le traitement des informations: MapReduce. Hadoop a été développé pour traiter une quantité importante de données en les fractionnant en blocs répartis entre les nœuds du cluster. C'est proablement l'outil le plus utilisé par les Chief Data Officer.
Plusieurs outils de cloud computing comme Azure HDInsight de Microsoft Azure ou Amazon Elastic Compute Cloud permettent d’utiliser Hadoop pour stocker et analyser les données. Sur Azure HDInsight, les entreprises sont facturées en fonction du nombre de nœuds exécutés.