Approccio e struttura generale
Nella presente documentazione viene descritta l'architettura dei dati che sta alla base dei flussi di lavoro del nostro team.
In questo primo capitolo, in particolare, vengono illustrati l'approccio e la struttura generale dei sistemi utilizzati per la gestione e l'elaborazione dei dati, che sono schematizzati nell'immagine riportata di seguito:
I dati grezzi provenienti dalle diverse data sourcesources vengono caricati all'interno del data warehouse (DWH) attraverso un processo customizzato di data ingestion.
I dati così archiviati all'interno del DWH sono in questo modo disponibili per essere elaborati in base alle necessità di analisi.
In sostanza l'approccio che viene utilizzato è quello di un processo ELT (Extract, Load, Transform) in cui il dato grezzo viene estratto dal data source, caricato all'interno del DWH e poi, in una fase successiva trasformato.
A valle delle trasformazioni dei dati effettuate all'interno del DWH viene controllata la correttezza dei dati tramite un sistema di Anomaly detection che ha la funzione di individuare e notificare al destinatario di riferimento eventuali anomalie riscontrate nei dataset risultanti dal processo di trasformazione. Ricevuta la notifica, il destinatario può correggere l'anomalia direttamente nelnella data source. Questo sistema consente di intercettare gli errori e/o i disallineamenti presenti nei dataset, e correggerli prima che questi vengano perpetrati nella reportistica o nelle estrazioni o procedure delle fasi successive.
Una volta trasformati all'interno del DWH ed eventualmente corretti grazie al sistema di anomaly detection, i dati sono pronti per essere utilizzati per i seguenti scopi:
- visualizzazione nella reportistica on-line;
- visualizzazione nella reportistica off-line;
- estrazione per utilizzi successivi;
- utilizzo per procedure automatizzate.
