Data Warehouse : comment fonctionne un entrepôt de données ?

Qu’est qu’un data warehouse ? Comment fonctionne un entrepôt de données ? Quelle architecture derrière le DWH ? Toutes les réponses dans cet article.

La transformation digitale des entreprises passe par la maîtrise de leurs données et la construction d’un projet d’informatique décisionnelle. Si le déploiement d’un Data Warehouse (ou entrepôt de données) est simple, le choix d’une architecture pour l’héberger est une étape complexe.

Comment fonctionnent les modèles traditionnels de Data Warehouse ? Quels sont les enjeux induits par le Cloud ?

 

Table des matières

Qu’est-ce qu’un Data Warehouse (DWH) ?

Un entrepôt de données est une base de données qui sert à regrouper, stocker et analyser un large volume de données issues de plusieurs sources.

Théorisé et popularisé par Bill Inmon et Ralph Kimball dans les années 1990, son objectif est de structurer et d’organiser ces données brutes afin d’en tirer de précieuses informations et les rendre accessibles. Les données opérationnelles deviennent ainsi des données décisionnelles qui alimentent des systèmes d’aide à la décision.

À l’heure où la sauvegarde et l’exploitation de leurs données est un enjeu clé pour les entreprises, déployer la bonne architecture Data Warehouse est un véritable soutien aux solutions de Business Intelligence.

Et pour preuve : selon les prévisions de Datamation, le marché des Data Warehouses, estimé à 21 milliards de dollars en 2020, devrait atteindre 34 milliards de dollars en 2025.

Data Warehouse vs Data Lake, lequel choisir selon les besoins de votre entreprise ?

L’architecture Data Warehouse traditionnelle : trois tiers

Le Data Warehouse traditionnel repose sur une architecture trois tiers, également appelée architecture à trois niveaux ou trois couches.

Premier tiers : l’accès

Le premier tiers inclut le serveur de base de données. Il accède aux données provenant de sources hétérogènes, telles que les bases de données transactionnelles.

Deuxième tiers : le traitement

Le deuxième tiers comprend un serveur Online Analytical Processing (OLAP) qui met en œuvre des règles de gestion et de logique applicative. Les données sont transformées en une structure adéquate pour les requêtes et analyses.

Troisième tiers : la présentation

Le dernier tiers est la couche client, c’est-à-dire la partie visible et interactive pour l’utilisateur. Il contient des outils de data analytics, de data mining et de reporting.

Les modèles associés aux architectures de Data Warehouses traditionnelles

On distingue trois modèles d’entrepôts de données dans une architecture traditionnelle.

1. Le Virtual Data Warehouse (VDW)

L’entrepôt de données virtuel désigne des bases de données distinctes pouvant être interrogées simultanément. L’utilisateur peut ainsi accéder à l’ensemble des données comme si elles étaient réunies dans un seul et même entrepôt.

2. Le Data Mart

Introduit pour la première fois en 1970, le Data Mart a été conçu pour faciliter l’accès à des données spécifiques à un métier, une application ou un secteur d’activité. Par exemple, il existe des Data Marts commerciaux ou financiers constitués de données ciblées répondant à une problématique fonctionnelle. Alors que les Data Warehouses ont une capacité plus élevée et couvrent plusieurs sujets, les Data Marts sont limités dans leurs usages et spécialisés sur un sujet précis.

3. Le Data Warehouse d’entreprise

Les Enterprise Data Warehouses (EDW) sont apparus à la fin des années 1980 et développés par Paul Murphy et Barry Devlin d’IBM. Ces entrepôts de données centralisées couvrant l’ensemble d’une organisation. Ils permettent aux entreprises de classifier leurs données en fonction d’un sujet et d’extraire toute la valeur de leur capital informationnel.

Les méthodes de chargement des données dans le Data Warehouse

Le Data Warehouse fonctionne selon le processus ETL (Extract Transform Load). Ce type de logiciel vise à collecter les données, les structurer et les convertir dans un format adapté pour le Data Warehouse. Une fois chargées, les données structurées peuvent être passées au crible.

Les nouvelles architectures de Data Warehouses dans le Cloud

Alors qu’elles migrent leurs activités vers le Cloud, les entreprises migrent aussi leurs outils de Data Warehousing et leurs bases de données.

Depuis quelques années, les entrepôts de données à la demande, en mode Cloud connaissent un bel essor. Des services « managés » tels qu’Amazon Redshift, Microsoft Azure SQL Data Warehouse, Snowflake et Google BigQuery proposent des solutions simples et efficaces.

Ces Cloud Data Warehouses (CDW) présentent de nombreux avantages :

  • Utilisation plus facile,
  • Moins de responsabilités liées à la gestion des versions,
  • Déploiement plus rapide et moins onéreux qu’un déploiement sur site,
  • Meilleure maîtrise de coûts et des risques.

Mais ils n’adhèrent pas à l’architecture traditionnelle.

Chaque entrepôt de données offrant une architecture unique, cela implique de quelques défis : chargement très processé, traitement difficile des données semi-structurées, pas de prise en charge des structures imbriquées, ajustement continu du cluster, optimisation des requêtes, maintenance régulière pour la restauration et sauvegarde des données.

Vous avez des questions ? N’hésitez pas à contacter nos experts ci-dessous pour discuter de stockage de données et d’architecture BI.

Articles liés
Le Data Governance Act
Le Data Governance Act, vers une stratégie européenne des données ?  
Qu’est-ce que le Data Governance Act ? Et comment s’inscrit-il dans la stratégie globale de l’Union Européenne sur les données ? …
Quatre etapes cles pour preparer votre projet data
Votre Projet Data : les 4 étapes clés pour le préparer 
Vous avez besoin de prendre le contrôle de vos données afin de répondre à vos problématiques actuelles ? Voici les 4 étapes clés à suivre pour préparer le lancement d’un projet data. …
Data Lake vs Data Warehouse
Data Warehouse vs Data Lake, lequel choisir ?
Quelle est la meilleure solution de stockage de données pour votre organisation ? Découvrez les atouts du Data Warehouse et du Data Lake …
Contactez un de nos experts
contact expert bi

« * » indique les champs nécessaires

Hidden
{embed_url}
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires

Code postal*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

« * » indique les champs nécessaires