Was wissen selbstüberwachte Sprachmodelle über Niederländisch? Analyse der Vorteile sprachspezifischen Vor-Trainings
What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training
June 1, 2025
Autoren: Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum
cs.AI
Zusammenfassung
Wie sprachspezifisch sind die Sprachrepräsentationen, die durch selbstüberwachte Modelle erlernt werden? Bisherige Arbeiten haben gezeigt, dass eine Vielzahl linguistischer Merkmale erfolgreich aus end-to-end-Modellen decodiert werden kann, die ausschließlich auf Sprachaufnahmen trainiert wurden. Es ist jedoch weniger klar, inwieweit das Vortraining auf bestimmte Sprachen die sprachspezifischen linguistischen Informationen verbessert. Hier testen wir die Kodierung niederländischer phonetischer und lexikalischer Informationen in den internen Repräsentationen selbstüberwachter Wav2Vec2-Modelle. Das ausschließliche Vortraining auf Niederländisch verbessert die Repräsentation niederländischer linguistischer Merkmale im Vergleich zum Vortraining mit ähnlichen Mengen an englischen oder größeren Mengen an mehrsprachigen Daten. Dieser sprachspezifische Vorteil wird gut durch trainierte Clustering- oder Klassifikationssonden erkannt und ist teilweise auch mit Zero-Shot-Metriken beobachtbar. Darüber hinaus korreliert der sprachspezifische Nutzen bei der Kodierung linguistischer Merkmale mit der nachgelagerten Leistung bei der automatischen Spracherkennung.
English
How language-specific are speech representations learned by self-supervised
models? Existing work has shown that a range of linguistic features can be
successfully decoded from end-to-end models trained only on speech recordings.
However, it's less clear to what extent pre-training on specific languages
improves language-specific linguistic information. Here we test the encoding of
Dutch phonetic and lexical information in internal representations of
self-supervised Wav2Vec2 models. Pre-training exclusively on Dutch improves the
representation of Dutch linguistic features as compared to pre-training on
similar amounts of English or larger amounts of multilingual data. This
language-specific advantage is well-detected by trained clustering or
classification probes, and partially observable using zero-shot metrics.
Furthermore, the language-specific benefit on linguistic feature encoding
aligns with downstream performance on Automatic Speech Recognition.