72
INFORMATICA
Dati Generali
Periodo di attività
Syllabus
Obiettivi Formativi
Conoscenze specifiche sono attese in riferimento a:
- sviluppo della disciplina
- metodologie per il trattamento automatico del linguaggio
- risorse e tecnologie del linguaggio
- elementi di programmazione
- elementi di text analysis
CONOSCENZA E CAPACITÀ DI COMPRENSIONE APPLICATE
Lo studente deve dimostrare di conoscere e saper comprendere le problematiche relative al complesso rapporto uomo-macchina e di esplicitare il contributo delle discipline umanistiche alla sua evoluzione nel tempo. Inoltre lo studente deve essere in grado di comprendere il concetto di informazione e di conoscere i metodi della rappresentazione digitale e dei sistemi di trattamento automatico del linguaggio naturale in ambito umanistico.
Le competenze specifiche mirano a
- conseguire conoscenze di base sulle tecnologie linguistiche
- sviluppare e consigliare l'uso delle tecnologie del linguaggio
- riconoscere l'importanza e il valore dei dati linguistici
ULTERIORI RISULTATI DI APPRENDIMENTO ATTESI
Autonomia di giudizio
Il corso si propone di sviluppare la capacità dello studente di analizzare in modo autonomo i processi tecnologici e culturali che hanno portato all’evoluzione delle interazioni uomo-macchina, con particolare riferimento alle tecnologie del linguaggio naturale e all’intelligenza artificiale. L’autonomia di giudizio acquisita costituirà una base per riflessioni critiche sull’uso delle tecnologie linguistiche negli studi umanistici e per l’elaborazione di prospettive o soluzioni alternative rispetto alle criticità affrontate durante il corso.
Abilità comunicative
Al termine del percorso, lo studente sarà in grado di comunicare in modo chiaro ed efficace problematiche, soluzioni e implicazioni legate all’impiego delle tecnologie del linguaggio e dell’AI, sia nel contesto della ricerca scientifica sia in quello applicativo, utilizzando una terminologia tecnica appropriata.
Capacità di apprendimento
Il corso offrirà strumenti per riconoscere le potenzialità e i limiti delle tecnologie linguistiche e dell’intelligenza artificiale nell’ambito delle digital humanities. Gli studenti svilupperanno le competenze necessarie per comprendere approcci progettuali alternativi e per proseguire in modo autonomo eventuali percorsi di formazione e ricerca nel campo dell’elaborazione automatica del linguaggio.
----------------------------------------------------------------------------------------------
Corso 36 ore - 6 CFU
Il corso si propone di fornire agli studenti una conoscenza introduttiva ma solida delle tecnologie del linguaggio, con particolare attenzione all’analisi automatica dei testi e alla traduzione automatica neurale. Gli studenti svilupperanno capacità di comprensione e commento di saggi specialistici, acquisendo competenze fondamentali per la risoluzione di problemi linguistici e traduttologici.
In particolare, saranno in grado di:
- Comprendere e analizzare testi scientifici in italiano e lingue straniere, in ambito linguistico-computazionale.
- Elaborare idee originali per affrontare problematiche linguistiche di base e per la traduzione assistita da tecnologia.
- Applicare strumenti e tecniche di base per il controllo della qualità di traduzioni automatizzate e di trattamento automatico del linguaggio.
- Comunicare con chiarezza e correttezza terminologica i contenuti disciplinari sia in forma scritta che orale.
- Avviare un percorso di apprendimento autonomo per l’aggiornamento continuo in ambito linguistico e traduttologico.
Corso 72 ore - 12 CFU
Il corso offre una formazione approfondita e avanzata sulle tecnologie del linguaggio, comprendendo modelli di linguaggio complessi, machine learning e deep learning applicati all’elaborazione automatica del linguaggio naturale e alla traduzione specialistica. Gli studenti acquisiranno competenze critiche e applicative per condurre ricerche autonome e fornire consulenze professionali.
In particolare, saranno in grado di:
- Analizzare e commentare in modo critico contributi scientifici avanzati in italiano e lingue straniere.
- Progettare ricerche individuali in ambito linguistico-computazionale e traduttologico, formulando giudizi autonomi e soluzioni innovative.
- Utilizzare e addestrare strumenti avanzati di tecnologie del linguaggio per traduzioni specialistiche e settoriali.
- Implementare strategie avanzate di controllo della qualità di sistemi di traduzione automatica e di trattamento automatico del linguaggio.
- Comunicare efficacemente contenuti complessi in ambito scientifico, didattico e professionale, anche in contesti pubblici.
- Sviluppare capacità di autoapprendimento e aggiornamento continuo attraverso metodi collaborativi e personali.
Prerequisiti
È preferibile la conoscenza dei fondamenti di linguistica generale e applicata
Metodi didattici
Corso 36 ore - 6 CFU
Le lezioni saranno principalmente frontali, con un approccio interattivo volto a facilitare la comprensione dei concetti fondamentali della linguistica computazionale e della traduzione automatica. Saranno analizzati e discussi i testi base di Jezek & Sprugnoli (2023) e Di Buono (2023), integrati da articoli scientifici recenti che verranno forniti durante il corso.
Verranno proposti esercizi di analisi critica di testi specialistici e casi di studio per stimolare la riflessione autonoma e l’elaborazione di idee originali.Per i non frequentanti è raccomandata l’integrazione di letture e materiale didattico come riportato nella sezione Altre Informazioni.
Sono previste inoltre attività di laboratorio per l’applicazione pratica degli strumenti di analisi automatica del testo e di valutazione della traduzione neurale.
Corso 72 ore - 12 CFU
Il corso prevede lezioni teoriche approfondite, accompagnate da seminari e attività pratiche volte all’analisi e all’implementazione di modelli linguistici avanzati, in particolare attraverso i testi di Jurafsky & Martin (2024 pre-release), Eisenstein e Goldberg, oltre a materiali integrativi.
Si favorirà una didattica partecipativa con discussioni critiche sui contributi scientifici più recenti, esercitazioni pratiche con software di NLP e laboratori dedicati all’addestramento e valutazione di modelli di linguaggio e traduzione automatica.
Gli studenti saranno coinvolti in lavori di gruppo e progetti di ricerca individuali per sviluppare autonomia metodologica e capacità applicative. Per i non frequentanti è raccomandata l’integrazione di letture e materiale didattico come riportato nella sezione Altre Informazioni.
La didattica sarà inoltre supportata da strumenti digitali per la condivisione di materiali, discussioni e valutazioni.
Verifica Apprendimento
L’esame finale consiste in una prova orale, durante la quale lo studente dovrà dimostrare di aver acquisito le competenze teoriche e pratiche previste dal corso. La prova orale verterà su tutti i contenuti trattati, con particolare attenzione agli aspetti critici e applicativi delle tecnologie del linguaggio, nonché alle metodologie di analisi e annotazione dei testi.
In aggiunta alla prova orale, gli studenti hanno la possibilità di presentare e discutere un elaborato scritto o multimediale relativo a uno o più temi del dominio dell’analisi del testo e delle tecnologie del linguaggio. Questo elaborato potrà essere frutto di un lavoro individuale o di gruppo, con un massimo di 5 partecipanti. L’elaborato rappresenta un’opportunità per approfondire aspetti applicativi o di ricerca e per sviluppare capacità di problem solving e comunicazione.
L’esame si svolge in lingua italiana; tuttavia, gli studenti stranieri possono richiedere al docente di sostenere la prova in lingua inglese.
Testi
Corso 36h - 6 CFU
- Jezek E., Sprugnoli R. 2023 Linguistica computazionale. Introduzione all'analisi automatica dei testi. Il Mulino
- Di Buono M.P. 2023 Giornalismo algoritmico e traduzione automatica. Una valutazione della traduzione neurale. Loffredo editore. Introduzione e Capitoli 1-2
Corso 72h - 12 CFU
- Dan Jurafsky and James H. Martin. Speech and Language Processing (2024 pre-release) - Materiale selezionato indicato durante il corso
- Jacob Eisenstein. Natural Language Processing - Materiale selezionato indicato durante il corso
- Yoav Goldberg. A Primer on Neural Network Models for Natural Language Processing
Sitografia
Materiale aggiuntivo sarà fornito durante il corso.
Contenuti
Il corso offre una solida formazione teorica e pratica nell’ambito dell’elaborazione automatica del linguaggio naturale, con particolare attenzione ai modelli, agli strumenti e alle applicazioni in contesti linguistici e traduttologici. Gli studenti acquisiranno capacità di analisi, commento e valutazione critica di contributi scientifici specialistici in italiano e nelle lingue straniere di studio, sviluppando competenze per risolvere problemi linguistici complessi e per utilizzare efficacemente tecnologie linguistiche e traduttive.
Il corso prevede due diversi percorsi formativi:
Corso 36 ore - 6 CFU:
- Focus sulle basi della linguistica computazionale, l’analisi automatica dei testi, e un’introduzione al giornalismo algoritmico e alla traduzione automatica neurale. Questo percorso è indicato per studenti con esigenze formative più focalizzate o curricula con minori requisiti in ambito tecnologico.
Corso 72 ore - 12 CFU:
- Approfondimento completo delle tecnologie del linguaggio, comprendente modelli avanzati di elaborazione del linguaggio naturale, tecniche di machine learning e deep learning applicate, e studio dettagliato di sistemi complessi per l’analisi e la traduzione automatica. Questo percorso si rivolge a studenti con un interesse più specialistico e a coloro che necessitano di una preparazione più ampia e approfondita.
In entrambi i percorsi, il corso sviluppa:
- Capacità di comprensione e commento di testi specialistici e scientifici, con particolare attenzione alle problematiche linguistiche e traduttologiche;
- Competenze applicative per la consulenza e l’uso consapevole di tecnologie del linguaggio e della traduzione;
- Autonomia di giudizio nella selezione e valutazione critica di dati e metodi;
- Abilità comunicative sia orali che scritte, per esporre con chiarezza contenuti complessi in contesti scientifici e professionali;
- Capacità di apprendimento continuo e autoformazione per sostenere la ricerca e l’aggiornamento professionale.
Lingua Insegnamento
Italiano
Altre informazioni
Si consiglia caldamente agli studenti non frequentanti di dedicare particolare attenzione alle letture integrative e al materiale supplementare indicati, al fine di acquisire una preparazione completa e approfondita. Tra i testi consigliati figurano lavori fondamentali e aggiornati nel campo delle tecnologie del linguaggio.
Corso 36 h - 6 CFU
Letture consigliate e materiale integrativo
- Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021, March). On the dangers of stochastic parrots: Can language models be too big?🦜. In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency (pp. 610-623).
- Chiche, A., Yitagesu, B. Part of speech tagging: a systematic review of deep learning and machine learning approaches. J Big Data 9, 10 (2022)
- Zhao, Wayne Xin, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min et al. "A survey of large language models." arXiv preprint arXiv:2303.18223 (2023).
Corso 72h - 12 CFU
Letture consigliate e materiale integrativo
- Brown, Tom, et al. (2020) Language models are few-shot learners. Advances in neural information processing systems 33: 1877-1901.
- de Marneffe, M.-C., Dozat, T., Silveira, N., Haverinen, K., Ginter, F., Nivre, J., & Manning, C. (2014). Universal Stanford Dependencies: A Cross-linguistic Typology. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC).
- Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 4171–4186). Association for Computational Linguistics.
- Liang, Percy, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang et al. (2022) "Holistic evaluation of language models." arXiv preprint arXiv:2211.09110.
- Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
- Norvig, P. (2012). On Chomsky and the Two Cultures of Statistical Learning. Significance, 9(4), 30–33.
- Schnabel, T., Labutov, I., Mimno, D. M., & Joachims, T. (2015). Evaluation Methods for Unsupervised Word Embeddings. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 298–307). Association for Computational Linguistics.
- Smith, Noah A. (2019) Contextual word representations: A contextual introduction. arXiv preprint arXiv:1902.06006 (2019).
- Universal Dependencies. (n.d.). Universal Dependencies Guidelines. Retrieved from https://universaldependencies.org.
- Wei, Jason, et al. (2022) Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems 35: 24824-24837.