Cosa sanno i modelli di linguaggio auto-supervisionati sull'olandese? Analisi dei vantaggi del pre-addestramento specifico per la lingua
What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training
June 1, 2025
Autori: Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum
cs.AI
Abstract
Quanto sono specifiche per una lingua le rappresentazioni del parlato apprese da modelli auto-supervisionati? La ricerca esistente ha dimostrato che una gamma di caratteristiche linguistiche può essere decodificata con successo da modelli end-to-end addestrati esclusivamente su registrazioni vocali. Tuttavia, è meno chiaro in che misura il pre-addestramento su lingue specifiche migliori le informazioni linguistiche specifiche per quella lingua. In questo studio, testiamo la codifica delle informazioni fonetiche e lessicali dell'olandese nelle rappresentazioni interne dei modelli Wav2Vec2 auto-supervisionati. Il pre-addestramento esclusivo sull'olandese migliora la rappresentazione delle caratteristiche linguistiche olandesi rispetto al pre-addestramento su quantità simili di inglese o su quantità maggiori di dati multilingue. Questo vantaggio specifico per la lingua è ben rilevato da sonde di clustering o classificazione addestrate ed è parzialmente osservabile utilizzando metriche zero-shot. Inoltre, il beneficio specifico per la lingua nella codifica delle caratteristiche linguistiche si allinea con le prestazioni a valle nel riconoscimento automatico del parlato (ASR).
English
How language-specific are speech representations learned by self-supervised
models? Existing work has shown that a range of linguistic features can be
successfully decoded from end-to-end models trained only on speech recordings.
However, it's less clear to what extent pre-training on specific languages
improves language-specific linguistic information. Here we test the encoding of
Dutch phonetic and lexical information in internal representations of
self-supervised Wav2Vec2 models. Pre-training exclusively on Dutch improves the
representation of Dutch linguistic features as compared to pre-training on
similar amounts of English or larger amounts of multilingual data. This
language-specific advantage is well-detected by trained clustering or
classification probes, and partially observable using zero-shot metrics.
Furthermore, the language-specific benefit on linguistic feature encoding
aligns with downstream performance on Automatic Speech Recognition.