Case Study (SQL, Python): analisi dati dei Giochi Olimpici

Nel mondo della Data Science, l’uso di SQL è fondamentale per l’estrazione, la manipolazione e l’analisi dei dati. In questo articolo, presenterò un case study in cui ho utilizzato SQL per analizzare un set di dati storici dei Giochi Olimpici.

Questo case study evidenzia come l’utilizzo di SQL (e Python) per l’analisi dei dati permetta di scoprire tendenze e intuizioni di particolare interesse statistico.

Case Study (SQL, Python): analisi dati dei Giochi Olimpici

Il case study si basa sui dati storici dei Giochi Olimpici, con l’obiettivo di scoprire tendenze e intuizioni che potrebbero gettare luce sull’evoluzione dei giochi e degli atleti che vi partecipano. Le ipotesi iniziali erano legate alla correlazione tra altezza e peso degli atleti, alla tendenza della partecipazione femminile e alla distribuzione dell’Indice di Massa Corporea (BMI).

L’approccio all’analisi dei dati è stato una combinazione di SQL e Python, sfruttando i punti di forza di entrambi per estrarre, pulire e analizzare i dati. Durante l’analisi, sono state affrontate diverse sfide tecniche, tra cui dati mancanti, dati inconsistenti, un grande set di dati e query SQL complesse.

I risultati dell’analisi hanno confermato le ipotesi iniziali, mostrando una correlazione positiva tra altezza e peso degli atleti e una tendenza crescente nella partecipazione femminile nel corso del tempo. Questi risultati forniscono preziose intuizioni sulle tendenze e i modelli di partecipazione olimpica, evidenziando l’importanza di considerare più fattori, come il genere e le caratteristiche fisiche, nell’analisi.

Questo case study dimostra come l’uso di SQL in combinazione con altri strumenti di analisi dei dati possa portare a scoperte significative e intuizioni preziose. Come analista di dati, l’abilità di utilizzare SQL per estrarre e manipolare dati è fondamentale, e questo case study evidenzia l’efficacia di queste competenze in un contesto pratico.

1. Introduzione e Ipotesi

La nostra analisi si basa sui dati storici dei Giochi Olimpici. Abbiamo cercato di scoprire tendenze e intuizioni interessanti che potrebbero fare luce sull’evoluzione dei giochi e degli atleti che vi partecipano.

Le nostre ipotesi iniziali erano:

1.1 Correlazione tra Altezza e Peso: abbiamo ipotizzato che ci sarebbe stata una correlazione positiva tra l’altezza e il peso degli atleti. Questo si basa sull’assunto generale che gli individui più alti tendono a pesare di più a causa della maggiore massa corporea.

1.2 Tendenza nella Partecipazione Femminile: abbiamo ipotizzato che la partecipazione delle atlete ai Giochi Olimpici sia aumentata nel tempo. Questo si basa sulla tendenza globale verso l’uguaglianza di genere e l’aumento delle opportunità per le donne nello sport.

1.3 Distribuzione dell’Indice di Massa Corporea (BMI): abbiamo ipotizzato che il BMI degli atleti sarebbe stato entro il range normale, data la richiesta fisica degli sport competitivi e l’enfasi su fitness e salute.

Nelle slide seguenti, discuteremo l’approccio che abbiamo adottato per testare queste ipotesi e le intuizioni che abbiamo scoperto.

2. Approccio all’Analisi dei Dati

Il nostro approccio all’analisi dei dati è stato una combinazione di SQL e Python, sfruttando i punti di forza di entrambi per estrarre, pulire e analizzare i dati.

2.1 Estrazione dei Dati: abbiamo utilizzato SQL per estrarre i dati pertinenti dal dataset dei Giochi Olimpici. Questo includeva dettagli sugli atleti, gli eventi a cui hanno partecipato e le loro prestazioni.

2.2 Pulizia dei Dati: abbiamo eseguito la pulizia dei dati utilizzando sia SQL che Python. Questo ha comportato la gestione dei valori mancanti, la rimozione dei duplicati e la verifica che i tipi di dati fossero corretti per la nostra analisi.

2.3 Analisi dei Dati: abbiamo utilizzato Python, in particolare la libreria pandas, per la nostra analisi dei dati. Questo ci ha permesso di manipolare i dati in modo efficiente e di eseguire analisi statistiche. Abbiamo testato le nostre ipotesi calcolando correlazioni, creando visualizzazioni ed eseguendo analisi delle tendenze.

2.4 Visualizzazione dei Dati: abbiamo utilizzato le librerie Python, tra cui matplotlib e seaborn, per creare visualizzazioni che ci hanno aiutato a capire meglio i dati e a scoprire intuizioni.

Analysis of Olympic Games Data
Analysis of Olympic Games Data
Analysis of Olympic Games Data

Nei passaggi successivi, presenteremo i risultati della nostra analisi e le intuizioni che abbiamo scoperto.

3. Sfide Tecniche

Durante la nostra analisi, abbiamo incontrato diverse sfide tecniche che abbiamo dovuto superare:

3.1 Dati Mancanti: alcuni dei record nel dataset avevano valori mancanti, in particolare nei campi altezza e peso. Questo ha rappresentato una sfida poiché questi erano campi chiave per la nostra analisi. Abbiamo risolto questo problema escludendo questi record da analisi specifiche in cui questi campi erano cruciali.

3.2 Dati Inconsistenti: abbiamo riscontrato alcune incongruenze nei dati, come variazioni nelle convenzioni di denominazione per i Giochi Olimpici (ad esempio, ‘Summer’ vs ‘S’). Abbiamo risolto questo problema standardizzando i dati per garantire la coerenza.

3.3 Dataset di Grandi Dimensioni: il dataset era piuttosto grande, con oltre 270.000 record. Questo ha rappresentato una sfida in termini di risorse computazionali. Abbiamo risolto questo problema eseguendo query SQL efficienti per estrarre solo i dati necessari per la nostra analisi.

3.4 Query Complesse: alcune delle nostre analisi richiedevano query SQL complesse, come il calcolo della correlazione tra altezza e peso. Abbiamo risolto questo problema suddividendo le query in parti più piccole e gestibili e testando ogni parte prima di combinarle.

Analysis of Olympic Games Data

4. Diagramma delle Relazioni tra Entità (ERD)

ERD per illustrare le relazioni tra le diverse entità nel dataset.

Analysis of Olympic Games Data

Il diagramma rappresenta le seguenti relazioni:

  • Un ATLETA partecipa in una PARTECIPAZIONE.
  • Una PARTECIPAZIONE si verifica in un EVENTO durante un’OLIMPIADE.
  • Un ATLETA è membro di una SQUADRA che rappresenta un NOC (Comitato Olimpico Nazionale).
  • Un EVENTO appartiene a uno specifico SPORT.
  • Un’OLIMPIADE si svolge in una STAGIONE ed è ospitata da una CITTÀ.

5. Risultati Iniziali

Nella nostra analisi iniziale, abbiamo esplorato il dataset per comprendere le caratteristiche generali degli atleti e dei Giochi Olimpici. Ecco alcuni dei nostri risultati chiave:

 5.1 Caratteristiche Fisiche degli Atleti: abbiamo scoperto che l’altezza media degli atleti è di circa 175,34 cm e il peso medio è intorno a 70,70 kg. Questi valori, tuttavia, variano significativamente tra i diversi sport.

 5.2 Partecipazione Sportiva: abbiamo scoperto che Atletica, Ginnastica e Nuoto sono gli sport con il maggior numero di atleti partecipanti. Questo è probabilmente dovuto al grande numero di eventi all’interno di questi sport.

 5.3 Partecipazione dei Paesi: abbiamo osservato che Stati Uniti, Francia e Gran Bretagna hanno il maggior numero di atleti partecipanti ai Giochi Olimpici. Questo potrebbe essere dovuto alla lunga storia di questi paesi nei Giochi e alla dimensione della loro popolazione.

 5.4 Partecipazione Femminile: abbiamo notato un significativo aumento della percentuale di atlete nel tempo. Nei primi anni dei Giochi Olimpici, la partecipazione femminile era molto bassa, ma è stata in costante aumento ed è ora vicina alla parità con la partecipazione maschile.

Analysis of Olympic Games Data

 Questi risultati iniziali ci hanno dato una buona comprensione del dataset e hanno aiutato a guidare la nostra ulteriore analisi.

6. Analisi Approfondita

Nella nostra analisi più approfondita, ci siamo concentrati su due aree principali: la correlazione tra l’altezza e il peso di un atleta e l’andamento della partecipazione femminile nel tempo. Ecco i nostri risultati:

 6.1 Correlazione tra Altezza e Peso: abbiamo riscontrato una correlazione positiva tra l’altezza e il peso di un atleta, con un coefficiente di correlazione di circa 0,66. Questo suggerisce che gli atleti più alti tendono ad essere più pesanti, il che è normale dato che altezza e peso sono generalmente correlati nella struttura corporea umana. Tuttavia, questa correlazione può variare tra i diversi sport a causa delle specifiche esigenze fisiche di ciascuno sport.

 6.2 Andamento della Partecipazione Femminile: la nostra analisi ha mostrato un chiaro trend ascendente nella percentuale di atlete nel tempo. Nei primi anni dei Giochi Olimpici, la partecipazione femminile era molto bassa, ma è stata in costante aumento nel corso dei decenni. Ai Giochi di Rio 2016, la partecipazione femminile aveva raggiunto quasi il 45%, indicando un significativo progresso verso l’uguaglianza di genere nelle Olimpiadi.

 Queste intuizioni più approfondite forniscono una comprensione più sfumata dei dati e mettono in evidenza importanti tendenze e relazioni.

Per quanto riguarda l’andamento della partecipazione femminile, abbiamo già discusso nei risultati iniziali che c’è stato un aumento significativo nel tempo. Per fornire un quadro più chiaro di questa tendenza, possiamo creare un grafico che mostra la percentuale di atlete in ogni edizione dei Giochi Olimpici.

Analysis of Olympic Games Data

Come si può vedere, la partecipazione delle donne è aumentata significativamente nel tempo. Nei primi anni dei Giochi Olimpici, la partecipazione femminile era molto bassa, ma è aumentata costantemente nel corso dei decenni. Questo è un importante indicatore di progresso verso l’uguaglianza di genere nei Giochi Olimpici.

7. Risultati delle Ipotesi

Le nostre ipotesi iniziali erano incentrate sulla relazione tra le caratteristiche fisiche di un atleta (altezza e peso) e la loro partecipazione ai Giochi Olimpici, così come l’andamento della partecipazione femminile nel tempo. Ecco i risultati:

 7.1 Correlazione tra Altezza e Peso: la nostra ipotesi che ci sarebbe stata una correlazione positiva tra l’altezza e il peso di un atleta è stata supportata dai dati. Abbiamo riscontrato un coefficiente di correlazione di circa 0,66, indicando una correlazione positiva moderata. Questo suggerisce che, in media, gli atleti più alti tendono ad essere più pesanti. Tuttavia, è importante notare che questa correlazione potrebbe non essere valida per tutti gli sport, poiché diversi sport hanno diverse esigenze fisiche e corporature ideali.

 7.2 Andamento della Partecipazione Femminile: anche la nostra ipotesi che la partecipazione femminile alle Olimpiadi sia aumentata nel tempo è stata supportata dai dati. Abbiamo riscontrato un chiaro trend ascendente nella percentuale di atlete che partecipano ai Giochi. Nei primi anni delle Olimpiadi, la partecipazione femminile era molto bassa, ma è aumentata costantemente nel corso dei decenni. Ai Giochi di Rio 2016, la partecipazione femminile aveva raggiunto quasi il 45%, indicando un significativo progresso verso l’uguaglianza di genere nelle Olimpiadi.

Questi risultati forniscono preziose intuizioni sulle tendenze e i modelli di partecipazione olimpica e sottolineano l’importanza di considerare più fattori, come il genere e le caratteristiche fisiche, nella nostra analisi.

8. Conclusione e Raccomandazioni

La nostra analisi del dataset dei Giochi Olimpici ha fornito diverse intuizioni chiave:

 8.1 Correlazione tra Altezza e Peso: esiste una correlazione positiva moderata tra l’altezza e il peso di un atleta. Questo suggerisce che le caratteristiche fisiche possono giocare un ruolo significativo nell’adeguatezza di un atleta per certi sport. Allenatori e preparatori potrebbero tenere in considerazione questo aspetto quando guidano giovani atleti verso sport in cui i loro attributi fisici potrebbero dar loro un vantaggio.

 8.2 Aumento della Partecipazione Femminile: c’è stato un chiaro trend ascendente nella partecipazione femminile alle Olimpiadi nel corso degli anni. Questo è un segno positivo di crescente uguaglianza di genere nel mondo dello sport. Tuttavia, con la partecipazione femminile ancora non alla pari con quella maschile, c’è ancora lavoro da fare. Le organizzazioni sportive e i comitati potrebbero concentrarsi sulla promozione e il sostegno delle atlete, e lavorare per creare più opportunità per le donne nello sport.

 8.3 Analisi dell’Indice di Massa Corporea (BMI): l’analisi del BMI degli atleti in diversi sport può fornire intuizioni sulle esigenze fisiche di ogni sport. Queste potrebbero essere informazioni utili per atleti e allenatori nella preparazione e nell’allenamento.

Analysis of Olympic Games Data

Questo grafico mostra l’indice di massa corporea medio (BMI) per ogni sport. Questo può fornire intuizioni sulle esigenze fisiche di ogni sport.

In conclusione, l’analisi dei dati fornisce preziose intuizioni che possono aiutarci a comprendere le tendenze e i modelli nello sport, e possono indicare le strategie per l’allenamento degli atleti, le prestazioni e la promozione dell’uguaglianza di genere nello sport. Andando avanti, sarà importante continuare ad analizzare e imparare dai dati per sostenere la crescita e l’evoluzione dei Giochi Olimpici.

News tag:
Torna in alto