Data Warehouse : comment fonctionne un entrepôt de données ?

Qu’est qu’un data warehouse ? Comment fonctionne un entrepôt de données ? Quelle architecture derrière le DWH ? Toutes les réponses dans cet article.

La transformation digitale des entreprises passe par la maîtrise de leurs données et la construction d’un projet d’informatique décisionnelle. Si le déploiement d’un Data Warehouse (ou entrepôt de données) est simple, le choix d’une architecture pour l’héberger est une étape complexe.

Comment fonctionnent les modèles traditionnels de Data Warehouse ? Quels sont les enjeux induits par le Cloud ?

 

Qu’est-ce qu’un Data Warehouse (DWH) ?

 

Un entrepôt de données est une base de données qui sert à regrouper, stocker et analyser un large volume de données issues de plusieurs sources.

Théorisé et popularisé par Bill Inmon et Ralph Kimball dans les années 1990, son objectif est de structurer et d’organiser ces données brutes afin d’en tirer de précieuses informations et les rendre accessibles. Les données opérationnelles deviennent ainsi des données décisionnelles qui alimentent des systèmes d’aide à la décision.

À l’heure où la sauvegarde et l’exploitation de leurs données est un enjeu clé pour les entreprises, déployer la bonne architecture Data WareHouse est un véritable soutien aux solutions de Business Intelligence.

Et pour preuve : selon les prévisions de Datamation, le marché des Data Warehouses, estimé à 21 milliards de dollars en 2020, devrait atteindre 34 milliards de dollars en 2025.

 

 

L’architecture Data Warehouse traditionnelle : trois tiers

 

Le Data Warehouse traditionnel repose sur une architecture trois tiers, également appelée architecture à trois niveaux ou trois couches.

 

Premier tiers : l’accès

Le premier tiers inclut le serveur de base de données. Il accède aux données provenant de sources hétérogènes, telles que les bases de données transactionnelles.

 

Deuxième tiers : le traitement

Le deuxième tiers comprend un serveur Online Analytical Processing (OLAP) qui met en œuvre des règles de gestion et de logique applicative. Les données sont transformées en une structure adéquate pour les requêtes et analyses.

 

Troisième tiers : la présentation

Le dernier tiers est la couche client, c’est-à-dire la partie visible et interactive pour l’utilisateur. Il contient des outils de data analytics, de data mining et de reporting.

 

 

Les modèles associés aux architectures de Data Warehouses traditionnelles

 

On distingue trois modèles d’entrepôts de données dans une architecture traditionnelle.

 

Le Virtual Data Warehouse (VDW)

L’entrepôt de données virtuel désigne des bases de données distinctes pouvant être interrogées simultanément. L’utilisateur peut ainsi accéder à l’ensemble des données comme si elles étaient réunies dans un seul et même entrepôt.

 

Le Data Mart

Introduit pour la première fois en 1970, le Data Mart a été conçu pour faciliter l’accès à des données spécifiques à un métier, une application ou un secteur d’activité. Par exemple, il existe des Data Marts commerciaux ou financiers constitués de données ciblées répondant à une problématique fonctionnelle. Alors que les Data Warehouses ont une capacité plus élevée et couvrent plusieurs sujets, les Data Marts sont limités dans leurs usages et spécialisés sur un sujet précis.

 

Le Data Warehouse d’entreprise

Les Enterprise Data Warehouses (EDW) sont apparus à la fin des années 1980 et développés par Paul Murphy et Barry Devlin d’IBM. Ces entrepôts de données centralisées couvrant l’ensemble d’une organisation. Ils permettent aux entreprises de classifier leurs données en fonction d’un sujet et d’extraire toute la valeur de leur capital informationnel.

 

 

Les méthodes de chargement des données dans le Data Warehouse

 

Le Data Warehouse fonctionne selon le processus ETL (Extract Transform Load). Ce type de logiciel vise à collecter les données, les structurer et les convertir dans un format adapté pour le Data Warehouse. Une fois chargées, les données structurées peuvent être passées au crible.

 

 

Les nouvelles architectures de Data Warehouses dans le Cloud

 

Alors qu’elles migrent leurs activités vers le Cloud, les entreprises migrent aussi leurs outils de Data Warehousing et leurs bases de données.

Depuis quelques années, les entrepôts de données à la demande, en mode Cloud connaissent un bel essor. Des services « managés » tels qu’Amazon Redshift, Microsoft Azure SQL Data Warehouse, Snowflake et Google BigQuery proposent des solutions simples et efficaces.

Ces Cloud Data Warehouses (CDW) présentent de nombreux avantages :

  • Utilisation plus facile,
  • Moins de responsabilités liées à la gestion des versions,
  • Déploiement plus rapide et moins onéreux qu’un déploiement sur site,
  • Meilleure maîtrise de coûts et des risques.

Mais ils n’adhèrent pas à l’architecture traditionnelle.

Chaque entrepôt de données offrant une architecture unique, cela implique de quelques défis : chargement très processé, traitement difficile des données semi-structurées, pas de prise en charge des structures imbriquées, ajustement continu du cluster, optimisation des requêtes, maintenance régulière pour la restauration et sauvegarde des données.

Articles liés
Reporting financier
Décryptez le reporting financier : définition, bénéfices et outils
Besoin d’accélérer et de fiabiliser votre reporting financier ? Découvrez nos meilleurs conseils d’expert pour un reporting efficace. …
BI PME Table Ronde
Qu’est-ce que la BI peut apporter aux PME ?
3 experts en BI et un client discutent de l’impact de la Business Intelligence sur les PME. Envie de savoir ce qu’ils se disent ? …
entreprise data driven
Être data-driven : c’est quoi ?
Une organisation data-driven a 19 fois plus de chance d’être rentable. Comment être guidé par la donnée au quotidien ? …
Contactez un de nos experts
contact expert bi

« * » indique les champs nécessaires

RGPD
Hidden
{embed_url}