“Big Data and BI&A present unique challenges and opportunities not only for the research community, but also for Information Systems (IS)”
Roger L. Chiang, Paulo Goes, Edward Sstohr
Data Management e Big Data
Avevamo indicato prima l’argomento data management e big data, che significa grandi quantità di dati. E quando si dice grandi si intende quantità davvero grandi: ci si riferisce ai terabyte (TB), che vuol dire 1 milione di megabyte!
Peraltro già si parla di datasfera, ossia di un mondo dominato dall’informazione, in crescita esponenziale.
I big data sono insiemi di dati così grandi come volume, e di una tale complessità, da non poter essere gestiti utilizzando gli strumenti software tradizionali.
Un classico database gestisce i dati secondo modelli strutturati in righe e colonne, mentre i dati dei big data non possono essere così facilmente incasellabili, perché non sono disponibili in forma strutturata: possono essere presenti come documenti, valori rilevati da sensori IoT, posizioni geografiche, e così via.
Ma da cosa si originano così grandi quantità di dati?
Per rispondere osserviamo che, rispetto ai dati tradizionali, esistono tantissimi tipi di big data, tra l’altro raccolti a un'altissima velocità, come ad esempio tutti i dati che arrivano continuamente da un social media come Facebook o dati che giungono ai sistemi di raccolta da reti amplissime e distribuite di sensori, come i dati di traffico, i dati delle agricolture, i dati di molte produzioni, i dati di sorveglianza da videocamere, i dati di natura geopolitica e così via .
Quantità, varietà e velocità sono gli aspetti che rendono tali dati preziosi per le organizzazioni, ma anche particolarmente complessi da gestire.
Poiché viene raccolto un numero sempre più elevato di dati da origini diverse, sono stati creati specifici sistemi dedicati alla loro gestione.
Questi sistemi sono specializzati in tre aree generali:
- Integrazione: recupero (ETL) diversi tipi di dati, da quelli batch a quelli in streaming
- Loro trasformazione (ETL) in informazione, da utilizzarli per le finalità successive
- Gestione: archiviazione (ETL) ed elaborazione in data lake o in data warehouse, per essere analizzati successivamente, ma anche in tempo reale.
Anche se sembra quasi impossibile analizzare in tempo reale i contenuti di così vaste basi di informazione, voglio citare ad esempio un’applicazione di frontiera, quale quella utilizzata al CERN di Ginevra, che consiste nell’analisi istantanea dei prodotti delle interazioni tra particelle pesanti (adroni) al fine di scartare subito i prodotti non rilevanti degli eventi ed archiviare solo le pur gigantesche quantità di dati e informazioni pertinenti all'esperimento, da interpretare e studiare (conoscenza e significato) successivamente.
Per inciso, per poter realizzare tutto ciò, si utilizza una grande e complessa architettura di calcolo - hardware e
software - appositamente costruita per lo scopo.
Tra l’altro questo spiega perché gli scienziati, ma anche in tantissimi altri settori di applicazione, ripongano così tante speranze nell’attesa di avere disponibili le straordinarie potenze di calcolo promesse dai computer quantistici.
Forse ne parleremo nel futuro in altri articoli dedicati.
- Analisi: scoperta di nuovi significati (conoscenza) per creare modelli (simulazioni, forecasting,...) con l’analisi, il machine learning e la AI, sempre più necessarie e utilizzate dalle organizzazioni a fronte delle esigenze di business agility e di gestione del gap di competenze tecniche specialistiche.
Le organizzazioni che utilizzano i big data lo fanno per diverse finalità, ad esempio: migliorare e accelerare lo sviluppo dei prodotti, la manutenzione predittiva, la customer experience, la sicurezza, l'efficienza operativa ed altro.
Infine, non si può parlare a mio parere di big data senza considerare i rischi effettivi e potenziali connessi alla loro raccolta e impiego, a fronte di possibili usi impropri o malvagi.
Da questo punto di vista si può osservare che il GDPR sta cambiando il volto del data management.
I requisiti imposti forniscono infatti leggi per la protezione dei dati standardizzate che consentono a ciascun individuo di controllare i propri dati personali e il modo in cui vengono utilizzati.
Anche questo aspetto, cioè la protezione dei dati e tutti gli aspetti connessi, di grande importanza per tutti gli individui e le organizzazioni, sarà oggetto di un articolo della serie Data Management.
_______
Scopri il servizio di Data Management all'interno di ThinkOpen.
_______
References
https://www.oracle.com/autonomous-database/what-is-cloud-data-platform/
https://www.ibm.com/it-it/it-infrastructure/storage/data-protection
https://www.dell.com/it-it/dt/learn/data-protection/vmware-backup.htm
https://www.sciencedirect.com/science/article/abs/pii/S2214579615000155
https://it.wikipedia.org/wiki/Business_intelligence
https://www.oracle.com/it/what-is-business-intelligence/
https://www.sas.com/it_it/solutions/business-intelligence
https://www.researchgate.net/profile/RogerChiang/publication/262314931