¿Qué saben los modelos de habla auto-supervisados sobre el neerlandés? Análisis de las ventajas del preentrenamiento específico del idioma.
What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training
June 1, 2025
Autores: Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum
cs.AI
Resumen
¿Qué tan específicas del idioma son las representaciones del habla aprendidas por modelos auto-supervisados? Trabajos previos han demostrado que una variedad de características lingüísticas pueden decodificarse exitosamente a partir de modelos entrenados de extremo a extremo utilizando únicamente grabaciones de habla. Sin embargo, es menos claro hasta qué punto el pre-entrenamiento en idiomas específicos mejora la información lingüística particular de cada idioma. En este estudio, evaluamos la codificación de información fonética y léxica del neerlandés en las representaciones internas de los modelos auto-supervisados Wav2Vec2. El pre-entrenamiento exclusivo en neerlandés mejora la representación de las características lingüísticas de este idioma en comparación con el pre-entrenamiento en cantidades similares de inglés o en mayores cantidades de datos multilingües. Esta ventaja específica del idioma es bien detectada mediante sondas de agrupamiento o clasificación entrenadas, y es parcialmente observable utilizando métricas de evaluación sin entrenamiento previo (zero-shot). Además, el beneficio específico del idioma en la codificación de características lingüísticas se alinea con el rendimiento en tareas posteriores de Reconocimiento Automático del Habla.
English
How language-specific are speech representations learned by self-supervised
models? Existing work has shown that a range of linguistic features can be
successfully decoded from end-to-end models trained only on speech recordings.
However, it's less clear to what extent pre-training on specific languages
improves language-specific linguistic information. Here we test the encoding of
Dutch phonetic and lexical information in internal representations of
self-supervised Wav2Vec2 models. Pre-training exclusively on Dutch improves the
representation of Dutch linguistic features as compared to pre-training on
similar amounts of English or larger amounts of multilingual data. This
language-specific advantage is well-detected by trained clustering or
classification probes, and partially observable using zero-shot metrics.
Furthermore, the language-specific benefit on linguistic feature encoding
aligns with downstream performance on Automatic Speech Recognition.