Il corso di Statistica per Big Data propone di introdurre gli studenti alle tecniche moderne di visualizzazione dei dati, ai metodi e modelli statistici per l’analisi di struture di dipendenza semplici e complesse, ai metodi statistici di supporto alle decisioni. Verranno anche introdotte anche alcune tecniche multivariate. Il corso si concentra in particolare sull'analisi esplorativa dei dati, sui modelli lineari e sui modelli lineari generalizzati, sui loro punti di forza e sui loro limiti.
Facendo ampio uso di esempi di dati reali e della loro analisi con R attraverso RStudio e con il software Minitab, il corso enfatizzerà il ruolo dei modelli statistici nell'affrontare le domande scientifiche e come queste si traducono in domande statistiche rilevanti. Lo studente imparerà a distinguere tra problemi di stima dei parametri, test di ipotesi e previsione. Pertanto allo studente verrà insegnato non solo ad applicare tecniche statistiche ma anche a scegliere la tecnica più opportuna ed a commentare l’output ai fini decisionali.
Facendo ampio uso di esempi di dati reali e della loro analisi con R attraverso RStudio e con il software Minitab, il corso enfatizzerà il ruolo dei modelli statistici nell'affrontare le domande scientifiche e come queste si traducono in domande statistiche rilevanti. Lo studente imparerà a distinguere tra problemi di stima dei parametri, test di ipotesi e previsione. Pertanto allo studente verrà insegnato non solo ad applicare tecniche statistiche ma anche a scegliere la tecnica più opportuna ed a commentare l’output ai fini decisionali.
scheda docente
materiale didattico
• tecniche di visualizzazione dei dati
• metodi e modelli statistici per l’analisi di strutte di dipendenza semplici e complesse. Modelli di regressione semplice, multipla e logistica. Modello log-lineare.
• Elementi di metodi statistici di supporto alle decisioni in condizioni di incertezza. Albero delle decisioni. Rappresentazione mediante modelli di problemi decisionali e loro soluzione ottima.
• Tecniche di statistica multivariata per la riduzione della dimensione dei dati (analisi fattoriale, cluster analysis)
• Primi elementi di reti bayesiane.
Note del docente sulle reti bayesiane e sistemi esperti per supporto alle decisioni
Programma
STATISTICA PER BIG DATA, corso di II° anno con i seguenti contenuti:• tecniche di visualizzazione dei dati
• metodi e modelli statistici per l’analisi di strutte di dipendenza semplici e complesse. Modelli di regressione semplice, multipla e logistica. Modello log-lineare.
• Elementi di metodi statistici di supporto alle decisioni in condizioni di incertezza. Albero delle decisioni. Rappresentazione mediante modelli di problemi decisionali e loro soluzione ottima.
• Tecniche di statistica multivariata per la riduzione della dimensione dei dati (analisi fattoriale, cluster analysis)
• Primi elementi di reti bayesiane.
Testi Adottati
Statistica per data scientist - Con R e Python (2022) Agresti A. e Kateri M, Egea editoreNote del docente sulle reti bayesiane e sistemi esperti per supporto alle decisioni
Modalità Erogazione
Lezioni frontali per 60 ore suddivise in 2 ore giornaliere su 3 giorni a settimana. In molte lezioni veranno illustrati le analisi dei dati con il software. Gli studenti sono invitati a portare con se il proprio PC o Tablet.Modalità Frequenza
Per gli studenti che frequentano le lezioni, la valutazione si basa su una prova scritta e sulla preparazione e presentazione orale di un progetto basato su dati pertinenti al corso di laurea.Modalità Valutazione
- La prova scritta è composta da: commenti di output, esercizi e domande teoriche. - Non è consentito introdurre alcun formulario e/o libro nell’aula d’esame. È consentito portare solo le tavole delle distribuzioni di probabilità nel formato reso disponibile sul sito web del corso. - La prova scritta è ritenuta superata se lo studente ottiene la sufficienza sia nella parte pratica sia in quella teorica. - Per gli studenti che frequentano le lezioni, la valutazione si basa su una prova scritta e sulla preparazione e presentazione orale di un progetto basato su serie di dati pertinenti agli studi dello studente. - Per gli studenti che non frequentano le lezioni, la valutazione si basa su un test scritto più dettagliato e un esame orale sull'intero programma.