ChatPaper.aiChatPaper

O que os modelos de fala autossupervisionados sabem sobre o holandês? Analisando as vantagens do pré-treinamento específico para o idioma

What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

June 1, 2025
Autores: Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum
cs.AI

Resumo

Quão específicas à língua são as representações de fala aprendidas por modelos auto-supervisionados? Trabalhos existentes mostraram que uma variedade de características linguísticas pode ser decodificada com sucesso a partir de modelos end-to-end treinados apenas em gravações de fala. No entanto, ainda não está claro até que ponto o pré-treinamento em línguas específicas melhora a informação linguística específica a cada língua. Aqui, testamos a codificação de informações fonéticas e lexicais do holandês nas representações internas de modelos Wav2Vec2 auto-supervisionados. O pré-treinamento exclusivamente em holandês melhora a representação das características linguísticas do holandês em comparação com o pré-treinamento em quantidades semelhantes de inglês ou em quantidades maiores de dados multilíngues. Essa vantagem específica à língua é bem detectada por sondas de agrupamento ou classificação treinadas e parcialmente observável usando métricas zero-shot. Além disso, o benefício específico à língua na codificação de características linguísticas está alinhado com o desempenho em tarefas de Reconhecimento Automático de Fala.
English
How language-specific are speech representations learned by self-supervised models? Existing work has shown that a range of linguistic features can be successfully decoded from end-to-end models trained only on speech recordings. However, it's less clear to what extent pre-training on specific languages improves language-specific linguistic information. Here we test the encoding of Dutch phonetic and lexical information in internal representations of self-supervised Wav2Vec2 models. Pre-training exclusively on Dutch improves the representation of Dutch linguistic features as compared to pre-training on similar amounts of English or larger amounts of multilingual data. This language-specific advantage is well-detected by trained clustering or classification probes, and partially observable using zero-shot metrics. Furthermore, the language-specific benefit on linguistic feature encoding aligns with downstream performance on Automatic Speech Recognition.
PDF12June 6, 2025