ChatPaper.aiChatPaper

Cosa sanno i modelli di linguaggio auto-supervisionati sull'olandese? Analisi dei vantaggi del pre-addestramento specifico per la lingua

What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

June 1, 2025
Autori: Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum
cs.AI

Abstract

Quanto sono specifiche per una lingua le rappresentazioni del parlato apprese da modelli auto-supervisionati? La ricerca esistente ha dimostrato che una gamma di caratteristiche linguistiche può essere decodificata con successo da modelli end-to-end addestrati esclusivamente su registrazioni vocali. Tuttavia, è meno chiaro in che misura il pre-addestramento su lingue specifiche migliori le informazioni linguistiche specifiche per quella lingua. In questo studio, testiamo la codifica delle informazioni fonetiche e lessicali dell'olandese nelle rappresentazioni interne dei modelli Wav2Vec2 auto-supervisionati. Il pre-addestramento esclusivo sull'olandese migliora la rappresentazione delle caratteristiche linguistiche olandesi rispetto al pre-addestramento su quantità simili di inglese o su quantità maggiori di dati multilingue. Questo vantaggio specifico per la lingua è ben rilevato da sonde di clustering o classificazione addestrate ed è parzialmente osservabile utilizzando metriche zero-shot. Inoltre, il beneficio specifico per la lingua nella codifica delle caratteristiche linguistiche si allinea con le prestazioni a valle nel riconoscimento automatico del parlato (ASR).
English
How language-specific are speech representations learned by self-supervised models? Existing work has shown that a range of linguistic features can be successfully decoded from end-to-end models trained only on speech recordings. However, it's less clear to what extent pre-training on specific languages improves language-specific linguistic information. Here we test the encoding of Dutch phonetic and lexical information in internal representations of self-supervised Wav2Vec2 models. Pre-training exclusively on Dutch improves the representation of Dutch linguistic features as compared to pre-training on similar amounts of English or larger amounts of multilingual data. This language-specific advantage is well-detected by trained clustering or classification probes, and partially observable using zero-shot metrics. Furthermore, the language-specific benefit on linguistic feature encoding aligns with downstream performance on Automatic Speech Recognition.
PDF12June 6, 2025