O que os modelos de fala autossupervisionados sabem sobre o holandês? Analisando as vantagens do pré-treinamento específico para o idioma
What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training
June 1, 2025
Autores: Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum
cs.AI
Resumo
Quão específicas à língua são as representações de fala aprendidas por modelos auto-supervisionados? Trabalhos existentes mostraram que uma variedade de características linguísticas pode ser decodificada com sucesso a partir de modelos end-to-end treinados apenas em gravações de fala. No entanto, ainda não está claro até que ponto o pré-treinamento em línguas específicas melhora a informação linguística específica a cada língua. Aqui, testamos a codificação de informações fonéticas e lexicais do holandês nas representações internas de modelos Wav2Vec2 auto-supervisionados. O pré-treinamento exclusivamente em holandês melhora a representação das características linguísticas do holandês em comparação com o pré-treinamento em quantidades semelhantes de inglês ou em quantidades maiores de dados multilíngues. Essa vantagem específica à língua é bem detectada por sondas de agrupamento ou classificação treinadas e parcialmente observável usando métricas zero-shot. Além disso, o benefício específico à língua na codificação de características linguísticas está alinhado com o desempenho em tarefas de Reconhecimento Automático de Fala.
English
How language-specific are speech representations learned by self-supervised
models? Existing work has shown that a range of linguistic features can be
successfully decoded from end-to-end models trained only on speech recordings.
However, it's less clear to what extent pre-training on specific languages
improves language-specific linguistic information. Here we test the encoding of
Dutch phonetic and lexical information in internal representations of
self-supervised Wav2Vec2 models. Pre-training exclusively on Dutch improves the
representation of Dutch linguistic features as compared to pre-training on
similar amounts of English or larger amounts of multilingual data. This
language-specific advantage is well-detected by trained clustering or
classification probes, and partially observable using zero-shot metrics.
Furthermore, the language-specific benefit on linguistic feature encoding
aligns with downstream performance on Automatic Speech Recognition.