EDA: comprendere il processo attraverso il framework PACE

Strumenti utilizzati:
Python

Nel mondo della Data Analysis, l’Exploratory Data Analysis (EDA) è un processo fondamentale che precede qualsiasi forma di modellazione avanzata. In questo articolo, ci addentreremo nel cuore dell’EDA, spiegandone i concetti in maniera semplice e chiara, utilizzando il framework PACE per strutturare il nostro approccio.

ll processo EDA: un ciclo iterativo e non sequenziale

Nel campo dell’analisi dei dati, il processo di Exploratory Data Analysis (EDA) è un pilastro fondamentale che guida gli analisti attraverso la comprensione profonda dei dati a loro disposizione. Questo processo è dinamico e flessibile, caratterizzato da una natura iterativa e non sequenziale. Vediamo nel dettaglio cosa significano questi termini e quale impatto hanno sull’applicazione delle pratiche EDA.

  • Iterativo: un approccio ripetitivo e riflessivo
    Il termine “iterativo” fa riferimento a un procedimento che si ripete. Nell’EDA, ciò implica un’esplorazione dei dati che non avviene in un’unico passaggio, ma attraverso cicli continui di valutazione e revisione. Durante questi cicli, ogni analisi condotta può rivelare nuovi insight o richiedere aggiustamenti. Ad esempio, potreste scoprire che una trasformazione dei dati applicata in una fase iniziale necessita di ulteriori modifiche dopo un’analisi più approfondita. Questo approccio ciclico garantisce che non vengano trascurate anomalie o pattern nascosti all’interno del dataset.
  • Non-sequenziale: la flessibilità del processo
    Parlando di non-sequentialità, ci riferiamo alla mancanza di un ordine prestabilito nelle fasi del processo EDA. A differenza di una ricetta di cucina, dove seguire l’ordine degli ingredienti è cruciale, nell’EDA l’ordine delle operazioni può variare a seconda del dataset e degli obiettivi dell’analisi. Questo significa che un analista può iniziare con la validazione dei dati per poi passare alla loro pulizia e successivamente tornare nuovamente alla validazione dopo aver introdotto nuove variabili o effettuato trasformazioni.
  • L’importanza dell’esperienza e della logica
    Il ruolo dell’esperienza e della logica è insostituibile nel processo EDA. Nonostante l’esistenza di linee guida e best practices, ogni dataset è unico e presenta sfide specifiche. L’analista deve quindi fare affidamento sulla propria esperienza per decidere quale pratica EDA applicare, in quale momento e quante volte ripeterla. Inoltre, l’uso della logica è essenziale per interpretare correttamente i risultati di ogni ciclo iterativo e per decidere il percorso da seguire.
    Ad esempio, un dataset con molte variabili potrebbe richiedere una serie di passaggi per la riduzione dimensionale prima di poter identificare le relazioni chiave. In un altro caso, se si rilevano discrepanze nei dati, potrebbe essere necessario tornare indietro e rivedere i passaggi di pulizia dei dati prima di procedere.

Riassumendo, l’EDA non è un processo lineare, ma un’avventura esplorativa che richiede curiosità, flessibilità e un pensiero critico costante. Gli analisti dati devono abbracciare un approccio aperto e adattivo, assicurandosi che ogni passo, da quelli iniziali di scoperta a quelli finali di presentazione, sia eseguito con rigore e attenzione al fine di garantire l’integrità e la qualità dei dati analizzati.

Esempio: un dataset sui boschi di conifere norvegesi

Immaginiamo di avere un dataset che cattura dati sui boschi di conifere in Norvegia. Questo esempio ci servirà per illustrare il processo di EDA attraverso fasi specifiche, dimostrando come ciascuna contribuisce a trasformare un insieme di dati grezzi in informazioni utili e affidabili.

  1. Scoperta: analisi iniziale dei dati
    La fase di scoperta è il primo contatto con il dataset. Ad esempio, ipotizziamo che il dataset sia composto da 200 righe e cinque colonne, che rappresentano vari aspetti dei boschi di conifere. L’obiettivo è avere una panoramica generale: dimensioni, struttura e contenuto dei dati. Rileviamo subito una carenza: il dataset è troppo piccolo per un’analisi significativa e necessita di più informazioni.
  2. Unione: aggiunta di nuovi dati
    Riconoscendo il bisogno di ampliare il nostro dataset, procediamo con l’unione di nuove fonti di dati. Questo potrebbe significare l’aggiunta di misurazioni storiche, dati geospaziali o informazioni da studi correlati per arricchire il nostro insieme di dati originale. Questo passaggio è cruciale per garantire che il volume e la varietà dei dati siano sufficienti per un’analisi approfondita.
  3. Validazione: verifica dell’assenza di errori
    Dopo ogni fase di unione, è imperativo validare i nuovi dati. Questo significa controllare che non ci siano errori di digitazione, dati in formati inconsistenti o valori mancanti che potrebbero essere stati introdotti. La validazione è una fase di assicurazione della qualità che aiuta a prevenire la propagazione di errori nel corso dell’analisi successiva.
  4. Strutturazione: organizzazione dei dati per comprendere tendenze
    Con un dataset più robusto, passiamo alla strutturazione. Qui, organizziamo i dati in periodi temporali diversi o li segmentiamo per caratteristiche specifiche come l’età degli alberi o la densità del bosco. Questo ci aiuta a visualizzare e comprendere meglio le tendenze e le correlazioni all’interno dei dati.
  5. Pulizia: ricerca di anomalie e mancanze
    La pulizia è un passaggio critico in cui cerchiamo e risolviamo problemi quali valori anomali (outlier), dati mancanti e la necessità di conversioni o trasformazioni dei dati. Ad esempio, potremmo scoprire che alcune misurazioni di crescita degli alberi sono state registrate in unità diverse e devono essere standardizzate. Potrebbero anche esserci dati che deviano significativamente dalla media che necessitano di ulteriore investigazione per determinare se rappresentano errori di misurazione o fenomeni reali.
  6. Validazione: verifica post-pulizia
    Una volta che i dati sono stati puliti, si effettua un altro giro di validazione. Questa è una fase cruciale per assicurarsi che le modifiche apportate non abbiano introdotto nuovi errori e che il dataset sia ora coerente e accurato. Si verifica che ogni valore corrisponda alla sua attesa logica e che l’integrità dei dati sia mantenuta.
  7. Presentazione: condivisione dei dati puliti
    Infine, con un dataset pulito e ben strutturato in mano, siamo pronti per la presentazione. Questo passaggio potrebbe comportare la condivisione dei dati con colleghi o con altre parti interessate per una revisione critica o per collaborazioni future. Si potrebbe anche procedere alla creazione di visualizzazioni dei dati o alla preparazione di un report che sintetizza le scoperte. È importante notare che il feedback ricevuto in questa fase potrebbe rivelare nuove opportunità per l’EDA, portando a ulteriori iterazioni del processo.

Riassumendo, questo esempio dimostra come il processo EDA sia fluido e adattabile. Non è un percorso lineare, ma un ciclo di pratiche che vengono ripetute e adattate in base alle esigenze e alle scoperte fatte lungo il percorso. Ogni fase contribuisce in modo essenziale alla trasformazione dei dati grezzi in insight preziosi e decisioni informate. Nel nostro caso, l’analisi dei boschi di conifere norvegesi diventa non solo un’esercitazione metodica, ma anche un viaggio esplorativo che richiede curiosità e precisione ad ogni passaggio.


L’importanza dell’EDA nell’apprendimento automatico etico

Con l’avvento di sistemi sempre più sofisticati di Intelligenza Artificiale (AI) e Machine Learning (ML), l’analisi esplorativa dei dati (EDA) assume un ruolo chiave non solo nel migliorare la qualità delle previsioni, ma anche nel garantire che l’etica guidi lo sviluppo e l’impiego di tali tecnologie. Esploriamo i principi etici fondamentali dell’AI e del ML e come l’EDA si inserisca in questo contesto.

I principi etici dell’AI e del Machine Learning
L’AI e il ML stanno acquisendo un peso crescente nelle decisioni che influenzano individui, aziende e governi. Questo incremento di responsabilità solleva questioni etiche e normative significative. L’Institute for Ethical AI & Machine Learning ha stabilito otto principi per lo sviluppo responsabile di sistemi di ML:

  1. Augmentazione umana: progettare sistemi che considerano l’impatto di previsioni errate e, ove possibile, inserire processi di revisione umani.
  2. Valutazione del bias: sviluppare processi che permettono di comprendere, documentare e monitorare il bias durante lo sviluppo e l’utilizzo dei sistemi.
  3. Spiegabilità per giustificazione: creare strumenti e processi che migliorano la trasparenza e la spiegabilità dei sistemi di ML.
  4. Operazioni riproducibili: realizzare infrastrutture che consentano un ragionevole livello di riproducibilità nelle operazioni dei sistemi ML.
  5. Strategia di sostituzione: identificare e documentare le informazioni rilevanti per sviluppare processi di cambio organizzativo che mitigano l’impatto sull’automazione del lavoro.
  6. Precisione pratica: assicurare che le metriche di precisione e costi siano allineate alle applicazioni specifiche del dominio.
  7. Fiducia per privacy: proteggere e gestire i dati in modo responsabile, coinvolgendo le parti interessate che possono interagire direttamente o indirettamente con il sistema.
  8. Consapevolezza del rischio dei dati: sviluppare e migliorare processi e infrastrutture per garantire la sicurezza dei dati e dei modelli durante lo sviluppo dei sistemi di ML.

Il ruolo dell’EDA nell’augmentazione umana e nella valutazione dei bias
L’EDA è essenziale in due principi chiave:

  • Augmentazione umana: l’EDA è un mezzo attraverso il quale gli umani possono inserirsi attivamente nei sistemi di AI o ML, esercitando una supervisione critica. Effettuando un’EDA approfondita, gli scienziati dei dati sono in grado di identificare e correggere errori, bias e squilibri prima che diventino parte integrante di un algoritmo.
  • Valutazione del bias: l’EDA permette agli analisti di individuare i bias nei dati che, senza un intervento umano, potrebbero essere facilmente incorporati e riprodotti nei modelli di ML. Eseguendo processi EDA metodici, gli scienziati dei dati diventano consapevoli dei bias e degli squilibri presenti e possono agire per mitigarli.

Riassumendo, l’EDA non è solo una pratica di pre-elaborazione dei dati; è anche un fondamento etico nel campo dell’AI e del ML. Una metodologia EDA sistematica è vitale per garantire che le decisioni prese dai sistemi automatizzati siano giuste, trasparenti e libere da pregiudizi non intenzionali. In tal modo, l’EDA si conferma come uno strumento cruciale per responsabilizzare gli analisti dei dati nella costruzione di un futuro tecnologico etico e consapevole.


Principi chiave del processo EDA

Il processo di EDA è intrinsecamente legato al miglioramento continuo e alla riduzione dei bias, due pilastri che sostengono la validità e l’affidabilità delle analisi dei dati.

  • Miglioramento continuo:
    L’EDA non si ferma al primo esame dei dati. Si tratta di un ciclo di miglioramento costante dove ogni iterazione affina la comprensione e la qualità dei dati. Ogni analisi approfondita può rivelare nuove opportunità di pulizia, trasformazione e arricchimento dei dati, che a loro volta possono portare a nuove intuizioni.
  • Riduzione dei bias:
    Uno degli obiettivi principali dell’EDA è identificare e ridurre i bias nei dati. Attraverso tecniche come il confronto di distribuzioni, l’analisi di sottogruppi e il test di ipotesi, gli analisti possono scoprire e correggere distorsioni o pregiudizi nei dati. Questo processo non solo migliora la qualità dell’analisi ma contribuisce anche a garantire che i modelli di machine learning costruiti sui dati siano più equi e imparziali.

In sintesi, i principi chiave dell’EDA enfatizzano l’importanza di un approccio meticoloso e iterativo nell’analisi dei dati, che va oltre la mera pulizia e organizzazione dei dati per abbracciare un impegno proattivo verso l’integrità e l’equità dei risultati analitici.


EDA: Best Practice

L’Exploratory Data Analysis (EDA) è una componente essenziale del processo di data science. Non si tratta solo di capire i dati, ma di prepararli in modo che le successive fasi di modellazione siano basate su fondamenta solide. Ecco alcune delle best practice da seguire durante l’EDA:

  1. Eliminazione dei duplicati
    La presenza di duplicati in un dataset può distorcere l’analisi, portando a conclusioni errate. Eliminare i duplicati è fondamentale per mantenere l’integrità statistica dei dati. Questo passaggio semplifica l’analisi e riduce il rischio di sovrastimare l’importanza di certe osservazioni.
  2. Importanza del processo iterativo
    L’EDA non è un processo da eseguire una sola volta. È un ciclo iterativo dove ogni fase può rivelare nuovi insight che potrebbero richiedere di tornare a fasi precedenti. Un approccio iterativo garantisce che ogni aspetto dei dati sia stato esplorato e validato adeguatamente.
  3. Presentazione di un dataset pulito
    Dopo aver identificato e corretto errori, valori mancanti, e anomalie, è cruciale presentare il dataset in un formato che sia facile da comprendere e usare. Un dataset pulito migliora la qualità dell’analisi e riduce il rischio di errori nei passaggi successivi, come la modellazione predittiva o l’analisi statistica.
  4. Aggiunta di nuove colonne calcolate
    Spesso, i dati grezzi non forniscono direttamente le misure necessarie per l’analisi. In questi casi, si ricorre alla creazione di nuove colonne calcolate, come indici o rapporti, che possono fornire maggiori insight e supportare meglio l’analisi.
  5. Conseguenze della negligenza nella pulizia dei dati
    Tralasciare la pulizia dei dati può portare a interpretazioni errate, modelli predittivi inaccurati e decisioni sbagliate. La qualità dei dati è tanto importante quanto la qualità dell’algoritmo utilizzato; trascurarla può avere impatti significativi sull’affidabilità dei risultati ottenuti.

Seguire queste best practice non solo migliora l’accuratezza delle analisi, ma rafforza anche l’etica del lavoro con i dati, assicurando che le decisioni basate su questi dati siano il più possibile corrette e imparziali. Inoltre, un EDA ben eseguito facilita la comunicazione dei risultati, rendendo i dati comprensibili anche a coloro che non sono esperti del settore, e contribuisce alla costruzione di un rapporto di fiducia con le parti interessate.


EDA: un esempio con Python

Tramite questo link è possibile accedere ad un notebook con un esempio di analisi esplorativa dei dati (EDA) che utilizza il dataset indicato qui di seguito.

Python Workspace

Dizionario dei dati:
Questa attività utilizza un set di dati chiamato Unicorn_Companies.csv.
Si tratta di un elenco di aziende private con un valore superiore a 1 miliardo di dollari a marzo 2022. I dati includono il nome del paese in cui è stata fondata l’azienda, la sua valutazione attuale, i finanziamenti, il settore, i principali investitori, l’anno di fondazione e l’anno in cui ha raggiunto una valutazione di 1 miliardo di dollari.

Il set di dati contiene:
1.074 righe – ogni riga è un’azienda differente
10 colonne

Nome colonnaTypeDescrizione
CompanystrNome della società
ValuationstrValutazione dell’azienda in miliardi di dollari (B)
Date JoineddatetimeLa data in cui l’azienda ha raggiunto un miliardo di dollari di valutazione.
IndustrystrSettore aziendale
CitystrLa città in cui è stata fondata l’azienda
Country/RegionstrNazione in cui è stata fondata l’azienda
ContinentstrContinente in cui è stata fondata l’azienda
Year FoundedintAnno di fondazione dell’azienda
FundingstrImporto totale raccolto in tutti i round di finanziamento in miliardi (B) o milioni (M) di dollari
Select InvestorsstrLe 4 principali società di investimento o singoli investitori (alcune ne hanno meno di 4)

Conclusione: l’importanza dell’EDA

Esplorando il processo di Exploratory Data Analysis (EDA) abbiamo scoperto come non sia semplicemente un compito preliminare ma un passaggio fondamentale. L’EDA emerge come un ciclo iterativo e non lineare, che richiede una mente analitica e un approccio etico per navigare attraverso i meandri dei dati.

Abbiamo visto come l’EDA giochi un ruolo vitale nell’apprendimento automatico, fungendo da baluardo contro i pregiudizi e come strumento di augmentazione umana, garantendo che le macchine lavorino per noi e non contro di noi. Abbiamo anche evidenziato come l’EDA sia un processo in continuo miglioramento, che richiede una costante valutazione dei bias per garantire l’integrità e l’equità dei modelli di machine learning.

Riflettendo sulle best practice, abbiamo sottolineato l’importanza di eliminare i duplicati, abbracciare il ciclo iterativo, presentare dati puliti, aggiungere nuove colonne calcolate e, soprattutto, riconoscere le gravi conseguenze che possono derivare dalla negligenza nella pulizia dei dati.

In conclusione, l’EDA non è solo un passaggio tecnico, ma un impegno morale e professionale che gli analisti di dati devono assumere con serietà. Esso rappresenta il ponte tra i dati grezzi e le percezioni approfondite, tra la conoscenza superficiale e le decisioni informate. Come data analyst, il nostro compito è quello di percorrere questo ponte con cura e dedizione, assicurandoci che ogni passo sia dato con la consapevolezza della sua importanza e con il rispetto per la verità che i dati si sforzano di rivelare.

EDA: Exploratory Data Analysis

FAQ

News tag:
Torna in alto