ChatPaper.aiChatPaper

¿Qué saben los modelos de habla auto-supervisados sobre el neerlandés? Análisis de las ventajas del preentrenamiento específico del idioma.

What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

June 1, 2025
Autores: Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum
cs.AI

Resumen

¿Qué tan específicas del idioma son las representaciones del habla aprendidas por modelos auto-supervisados? Trabajos previos han demostrado que una variedad de características lingüísticas pueden decodificarse exitosamente a partir de modelos entrenados de extremo a extremo utilizando únicamente grabaciones de habla. Sin embargo, es menos claro hasta qué punto el pre-entrenamiento en idiomas específicos mejora la información lingüística particular de cada idioma. En este estudio, evaluamos la codificación de información fonética y léxica del neerlandés en las representaciones internas de los modelos auto-supervisados Wav2Vec2. El pre-entrenamiento exclusivo en neerlandés mejora la representación de las características lingüísticas de este idioma en comparación con el pre-entrenamiento en cantidades similares de inglés o en mayores cantidades de datos multilingües. Esta ventaja específica del idioma es bien detectada mediante sondas de agrupamiento o clasificación entrenadas, y es parcialmente observable utilizando métricas de evaluación sin entrenamiento previo (zero-shot). Además, el beneficio específico del idioma en la codificación de características lingüísticas se alinea con el rendimiento en tareas posteriores de Reconocimiento Automático del Habla.
English
How language-specific are speech representations learned by self-supervised models? Existing work has shown that a range of linguistic features can be successfully decoded from end-to-end models trained only on speech recordings. However, it's less clear to what extent pre-training on specific languages improves language-specific linguistic information. Here we test the encoding of Dutch phonetic and lexical information in internal representations of self-supervised Wav2Vec2 models. Pre-training exclusively on Dutch improves the representation of Dutch linguistic features as compared to pre-training on similar amounts of English or larger amounts of multilingual data. This language-specific advantage is well-detected by trained clustering or classification probes, and partially observable using zero-shot metrics. Furthermore, the language-specific benefit on linguistic feature encoding aligns with downstream performance on Automatic Speech Recognition.
PDF12June 6, 2025