Whisper-LM: Mejora de modelos de reconocimiento automático del habla con modelos de lenguaje para idiomas de bajos recursos

Resumen

Los sistemas de reconocimiento automático del habla han avanzado sin duda con la integración de modelos multilingües y multitarea como Whisper, los cuales han demostrado una capacidad prometedora para comprender y procesar el habla en una amplia gama de idiomas. A pesar de su robustez, estos modelos a menudo no logran manejar las distinciones lingüísticas de las lenguas minoritarias. Este estudio aborda esta brecha al integrar modelos lingüísticos tradicionales y novedosos con modelos Whisper ajustados finamente para mejorar su rendimiento en idiomas menos estudiados. A través de un ajuste fino riguroso y evaluación en múltiples conjuntos de datos, demostramos mejoras sustanciales en la tasa de error de palabras, particularmente en escenarios de bajos recursos. Nuestro enfoque no solo aprovecha los extensos datos con los que Whisper fue preentrenado, sino que también complementa su adaptabilidad lingüística al incorporar modelos de lenguaje. Obtuvimos mejoras de hasta el 51\% para conjuntos de datos dentro de la distribución y hasta el 34\% para oraciones fuera de la distribución utilizando modelos de lenguaje estadísticos, mientras que los modelos de lenguaje grandes proporcionaron mejoras moderadas pero consistentemente robustas en diversos contextos lingüísticos. Los hallazgos revelan que, aunque la integración beneficia de manera confiable a todos los tamaños de modelos, el grado de mejora varía, destacando la importancia de optimizar los parámetros de los modelos de lenguaje. Finalmente, enfatizamos la importancia de seleccionar parámetros de evaluación apropiados al reportar los resultados utilizando modelos ASR basados en transformadores. En resumen, esta investigación allana el camino para tecnologías ASR más inclusivas que funcionan mejor en diversos idiomas al enriquecer su conocimiento lingüístico. Para más detalles de implementación de este estudio, la documentación técnica y el código fuente están disponibles en http://www.github.com/hitz-zentroa/whisper-lm.

English

Automatic speech recognition systems have undoubtedly advanced with the integration of multilingual and multitask models such as Whisper, which have shown a promising ability to understand and process speech across a wide range of languages. Despite their robustness, these models often fall short in handling the linguistic distinctions of minority languages. This study addresses this gap by integrating traditional and novel language models with fine-tuned Whisper models to raise their performance in less commonly studied languages. Through rigorous fine-tuning and evaluation across multiple datasets, we demonstrate substantial improvements in word error rate, particularly in low-resource scenarios. Our approach not only does take advantage of the extensive data Whisper was pre-trained on, but also complements its linguistic adaptability by incorporating language models. We obtained improvements up to 51\% for in-distribution datasets and up to 34\% for out-of-distribution sentences using statistical language models, while large language models provided moderate but consistently robust improvement across diverse linguistic contexts. The findings reveal that, while the integration reliably benefits all model sizes, the extent of improvement varies, highlighting the importance of optimized language model parameters. Finally, we emphasize the importance of selecting appropriate evaluation parameters when reporting the results using transformer-based ASR models. In summary, this research clears the way for more inclusive ASR technologies that perform better across languages by enriching their linguistic knowledge. For further implementation details of this study, the technical documentation and source code are available at http://www.github.com/hitz-zentroa/whisper-lm.

Whisper-LM: Mejora de modelos de reconocimiento automático del habla con modelos de lenguaje para idiomas de bajos recursos

Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

Resumen

Support