Dataset per il machine learning
Uno degli elementi fondamentali per il machine learning è la disponibilità di dataset adeguati per le fasi di training, cross validation e test. Maggiore è la loro dimensione e qualità, migliore è l'accuratezza dei modelli risultanti.
Il più delle volte è proibitivo riuscire ad allestire risorse di questo genere (intendo dell'ordine di centinaia di migliaia o di milioni di record) per cui in questo post ho cercato di raccogliere il maggior numero di fonti interessanti scovate in giro per il web soprattutto su indicazione degli esperti del settore.
NB: la lista è in continuo aggiornamento ed è possibile aggiungere nuove risorse direttamente nei commenti.
DATABASE DI IMMAGINI
- Tiny Images Dataset : si tratta di uno sterminato archivio di quasi 80 milioni di immagini a colori 32x32 a cura della New York University e del MIT di Boston. Il materiale davvero corposo, ben 400 GB di dati, è strutturato in 5 file di cui 3 sono nell'ordine le immagini in un formato binario accessibile attraverso un toolbox di Matlab realizzato ad hoc, i metadati associati e i descrittori gist. Gli altri due sono per l'appunto il toolbox Matlab e un file index
- Face Recognition: una raccolta di link a molti database di immagini appositamente predisposte per il riconoscimento facciale. In alcuni casi sono corredate di misure biometriche, in altri riportano differenti espressioni facciali.
- Amsterdam Library of Object Images (ALOI): una collezione di oltre 100 mila immagini a colori di oggetti fotografati da diverse angolazioni e condizioni di luce.
DATI STATISTICI NAZIONALI
- Istat: l'Istituto di Statistica nazionale mette a disposizione di tutti i suoi ricchissimi database che fotografano l'Italia da ogni punto di vista. Si possono effettuare ricerche, creare dei grafici ed esportare i dati in vari formati quali Excel e CSV. A titolo esemplificativo si riporta la tabella relativa alla popolazione di 15-34 anni per titolo di studio.
- UNdata: un mondo di informazioni che spazia dall'economia alla finanza, dalla salute all'industria. Con un click è possibile accedere ai servizi statistici messi a disposizione da qualunque Paese del mondo.
- Data.gov.uk: il governo britannico ha pubblicato oltre 38000 dataset che spaziano dai trasporti, all'economia, all'istruzione, alla criminalità, al meteo ecc. Un comodissimo motore di ricerca permette di filtrare in base al tipo di licenza, al formato dei dati, alla categoria di appartenenza.
CLIMA
- Global climate data: dati climatici di ogni nazione dal 1929 ad oggi provenienti da oltre 9000 stazioni meteo. Per curiosità ho cercato quelle della mia provincia.
FISICA
- CERN Open Data: l'enorme patrimonio di dati prodotti nel più grande laboratorio do fisica la mondo.
SPORTS
- Football-Data.co.uk: dalla stagione 1992/93 ad oggi, tutti i risultati e alcune statistiche di 22 campionati europei. Se vi interessa la serie A date un'occhiata a http://www.football-data.co.uk/italym.php
RACCOLTE
- mldata.org: un repository di dataset per il machine learning costantemente aggiornato. In molti casi i dati sono disponibili in molteplici formati da csv ad arff fino ad octave e matlab. Chiunque può caricare il proprio dataset (previa registrazione al sito) e scaricare quelli disponibili che tra le altre cose presentano il numero di download effettuati, le visualizzazioni e il rating ottenuto. Sono presenti anche alcuni esempi di algoritmi sviluppati in occasione di esperimenti o gare.
- Amazon Public Data
- Google Public Data
- Kaggle
- Reddit r/dataset
NOTA: in questi giorni ho trovato una ricchissima raccolta di link a dataset pubblici. Cercherò di visitarli tutti per selezionare quelli più interessanti e completi da aggiungere alla lista principale.