Mot-clé: open source

Qu’est-ce qu’un ETL?

Sans vouloir absolument revenir sur le sujet [sic!], les entreprises d’aujourd’hui doivent de plus en plus composer avec l’infobésité. Les données sont partout…mais pas toujours à la bonne place…dans différents formats et sans valeur uniforme. Tout un casse-tête!

Les entreprises ont besoin d’une façon efficace d’analyser leurs données afin de prendre de meilleures décisions d’affaires. Les bases de données standard ne peuvent pas toujours répondre à ces questions parce que cela nécessite de croiser de multiples sources d’informations ensemble.

C’est ici que le processus ETL (Extract – Transform – Load) entre en jeu. L’ETL est un programme qui accède à de multiples sources de données disparates, en fait l’extraction, les manipule et les intègre dans un référentiel commun – l’entrepôt de données ou data warehouse.

  1. Extract
    L’ETL peut travailler avec une multitude de formats, structurés (bases de données standard), semi-structuré (ex. courriels, logs) non-structuré (ex. document Word).
  2. Transform
    Dans sa partie transformation, il permet de convertir les données et de procéder à une série d’opération permettant, par exemple, d’éliminer les doublons, l’information superflue, les joindre à d’autres données, les agréger, etc.
  3. Load
    Finalement, la partie « load » ne se limite pas à insérer les informations dans l’entrepôt de données. Cette étape permet également de faire une validation des règles d’insertion, de s’assurer de l’intégrité et la conformité des données, de détecter et de corriger les erreurs potentielles.

Le processus ETL peut être préprogrammé, selon un horaire (ex. à tous les jours à 19h). Les informations qui sont stockées dans l’entrepôt de données peuvent ensuite être traitées et analysées directement ou via des plateformes d’intelligence d’affaires.

architecture_bi

source : Atol CD – Les ETL open source

Quelques liens pertinents :

PartagezTweet about this on TwitterShare on FacebookShare on LinkedInShare on Google+Email this to someone

Le nouveau modèle du BI

Cette semaine j’ai assisté (virtuellement) à la conférence de The Data Warehouse Institute (TDWI) intitulée Revolutionary Business Intelligence (BI), changing the rules of the game. Je vous en fait un court résumé :

Essentiellement, on nous a fait la démonstration qu’en combinant le cloud-computing aux bases de données OLAP (du WOLAP) avec des outils BI open source (Pentaho, par exemple), on détenait la formule gagnante ou du moins celle qui est vraisemblablement vouée à devenir « mainstream » dans les prochaines années.

Le problème avec ce couplage, c’est que le temps mis à charger les données et à effectuer des requêtes est interminable. Et ce sont justement les points les plus cruciaux pour les gestionnaires de TI:

intégration de projets BI open source dans les entreprises

Malgré tout, de plus en plus d’industries intègrent cette solution dans leurs nouveaux projets, tel que le démontre le graphique suivant, basé sur les sondages Third Nature (et de Mark Manson dont j’ai déjà fait mention ici).

points importants du systeme BI pour les gestionnaires TI

Mais voilà que l’on pourrait bien outrepasser ces problèmes par une solution très « hardware ». En effet, le processing in-memory (PIM), qui consiste à combiner le processeur et la mémoire vive sur la même puce de silicone pourrait bien être le remède à tous les maux vécus par les utilisateurs de solutions BI actuellement. Le PIM est encore en développement dans les universités américaines (ici et ici). mais pourrait voir le jour commercialement beaucoup plus vite qu’on ne le pense. Une innovation à suivre…

PartagezTweet about this on TwitterShare on FacebookShare on LinkedInShare on Google+Email this to someone