Wat weten zelfgesuperviseerde spraakmodellen over het Nederlands? Een analyse van de voordelen van taal-specifieke voorafgaande training

Samenvatting

Hoe taalspecifiek zijn spraakrepresentaties die worden geleerd door zelfgesuperviseerde modellen? Bestaand onderzoek heeft aangetoond dat een reeks linguïstische kenmerken succesvol kan worden gedecodeerd uit end-to-end modellen die alleen op spraakopnames zijn getraind. Het is echter minder duidelijk in hoeverre vooraf trainen op specifieke talen taalspecifieke linguïstische informatie verbetert. Hier testen we de codering van Nederlandse fonetische en lexicale informatie in interne representaties van zelfgesuperviseerde Wav2Vec2-modellen. Vooraf uitsluitend trainen op Nederlands verbetert de representatie van Nederlandse linguïstische kenmerken in vergelijking met vooraf trainen op vergelijkbare hoeveelheden Engels of grotere hoeveelheden meertalige data. Dit taalspecifieke voordeel wordt goed gedetecteerd door getrainde clustering- of classificatieprobes, en is gedeeltelijk waarneembaar met behulp van zero-shot metrieken. Bovendien komt het taalspecifieke voordeel bij de codering van linguïstische kenmerken overeen met de prestaties stroomafwaarts bij Automatische Spraakherkenning.

English

How language-specific are speech representations learned by self-supervised models? Existing work has shown that a range of linguistic features can be successfully decoded from end-to-end models trained only on speech recordings. However, it's less clear to what extent pre-training on specific languages improves language-specific linguistic information. Here we test the encoding of Dutch phonetic and lexical information in internal representations of self-supervised Wav2Vec2 models. Pre-training exclusively on Dutch improves the representation of Dutch linguistic features as compared to pre-training on similar amounts of English or larger amounts of multilingual data. This language-specific advantage is well-detected by trained clustering or classification probes, and partially observable using zero-shot metrics. Furthermore, the language-specific benefit on linguistic feature encoding aligns with downstream performance on Automatic Speech Recognition.

Wat weten zelfgesuperviseerde spraakmodellen over het Nederlands? Een analyse van de voordelen van taal-specifieke voorafgaande training

What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

Samenvatting

Support