Wat weten zelfgesuperviseerde spraakmodellen over het Nederlands? Een analyse van de voordelen van taal-specifieke voorafgaande training
What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training
June 1, 2025
Auteurs: Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum
cs.AI
Samenvatting
Hoe taalspecifiek zijn spraakrepresentaties die worden geleerd door zelfgesuperviseerde modellen? Bestaand onderzoek heeft aangetoond dat een reeks linguïstische kenmerken succesvol kan worden gedecodeerd uit end-to-end modellen die alleen op spraakopnames zijn getraind. Het is echter minder duidelijk in hoeverre vooraf trainen op specifieke talen taalspecifieke linguïstische informatie verbetert. Hier testen we de codering van Nederlandse fonetische en lexicale informatie in interne representaties van zelfgesuperviseerde Wav2Vec2-modellen. Vooraf uitsluitend trainen op Nederlands verbetert de representatie van Nederlandse linguïstische kenmerken in vergelijking met vooraf trainen op vergelijkbare hoeveelheden Engels of grotere hoeveelheden meertalige data. Dit taalspecifieke voordeel wordt goed gedetecteerd door getrainde clustering- of classificatieprobes, en is gedeeltelijk waarneembaar met behulp van zero-shot metrieken. Bovendien komt het taalspecifieke voordeel bij de codering van linguïstische kenmerken overeen met de prestaties stroomafwaarts bij Automatische Spraakherkenning.
English
How language-specific are speech representations learned by self-supervised
models? Existing work has shown that a range of linguistic features can be
successfully decoded from end-to-end models trained only on speech recordings.
However, it's less clear to what extent pre-training on specific languages
improves language-specific linguistic information. Here we test the encoding of
Dutch phonetic and lexical information in internal representations of
self-supervised Wav2Vec2 models. Pre-training exclusively on Dutch improves the
representation of Dutch linguistic features as compared to pre-training on
similar amounts of English or larger amounts of multilingual data. This
language-specific advantage is well-detected by trained clustering or
classification probes, and partially observable using zero-shot metrics.
Furthermore, the language-specific benefit on linguistic feature encoding
aligns with downstream performance on Automatic Speech Recognition.