Whisper-LM: Mejora de modelos de reconocimiento automático del habla con modelos de lenguaje para idiomas de bajos recursos
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages
March 30, 2025
Autores: Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja
cs.AI
Resumen
Los sistemas de reconocimiento automático del habla han avanzado sin duda con la integración de modelos multilingües y multitarea como Whisper, los cuales han demostrado una capacidad prometedora para comprender y procesar el habla en una amplia gama de idiomas. A pesar de su robustez, estos modelos a menudo no logran manejar las distinciones lingüísticas de las lenguas minoritarias. Este estudio aborda esta brecha al integrar modelos lingüísticos tradicionales y novedosos con modelos Whisper ajustados finamente para mejorar su rendimiento en idiomas menos estudiados. A través de un ajuste fino riguroso y evaluación en múltiples conjuntos de datos, demostramos mejoras sustanciales en la tasa de error de palabras, particularmente en escenarios de bajos recursos. Nuestro enfoque no solo aprovecha los extensos datos con los que Whisper fue preentrenado, sino que también complementa su adaptabilidad lingüística al incorporar modelos de lenguaje. Obtuvimos mejoras de hasta el 51\% para conjuntos de datos dentro de la distribución y hasta el 34\% para oraciones fuera de la distribución utilizando modelos de lenguaje estadísticos, mientras que los modelos de lenguaje grandes proporcionaron mejoras moderadas pero consistentemente robustas en diversos contextos lingüísticos. Los hallazgos revelan que, aunque la integración beneficia de manera confiable a todos los tamaños de modelos, el grado de mejora varía, destacando la importancia de optimizar los parámetros de los modelos de lenguaje. Finalmente, enfatizamos la importancia de seleccionar parámetros de evaluación apropiados al reportar los resultados utilizando modelos ASR basados en transformadores. En resumen, esta investigación allana el camino para tecnologías ASR más inclusivas que funcionan mejor en diversos idiomas al enriquecer su conocimiento lingüístico. Para más detalles de implementación de este estudio, la documentación técnica y el código fuente están disponibles en http://www.github.com/hitz-zentroa/whisper-lm.
English
Automatic speech recognition systems have undoubtedly advanced with the
integration of multilingual and multitask models such as Whisper, which have
shown a promising ability to understand and process speech across a wide range
of languages. Despite their robustness, these models often fall short in
handling the linguistic distinctions of minority languages. This study
addresses this gap by integrating traditional and novel language models with
fine-tuned Whisper models to raise their performance in less commonly studied
languages. Through rigorous fine-tuning and evaluation across multiple
datasets, we demonstrate substantial improvements in word error rate,
particularly in low-resource scenarios. Our approach not only does take
advantage of the extensive data Whisper was pre-trained on, but also
complements its linguistic adaptability by incorporating language models. We
obtained improvements up to 51\% for in-distribution datasets and up to 34\%
for out-of-distribution sentences using statistical language models, while
large language models provided moderate but consistently robust improvement
across diverse linguistic contexts. The findings reveal that, while the
integration reliably benefits all model sizes, the extent of improvement
varies, highlighting the importance of optimized language model parameters.
Finally, we emphasize the importance of selecting appropriate evaluation
parameters when reporting the results using transformer-based ASR models. In
summary, this research clears the way for more inclusive ASR technologies that
perform better across languages by enriching their linguistic knowledge. For
further implementation details of this study, the technical documentation and
source code are available at http://www.github.com/hitz-zentroa/whisper-lm.Summary
AI-Generated Summary