Whisper-LM : Amélioration des modèles de reconnaissance automatique de la parole grâce aux modèles de langage pour les langues à ressources limitées
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages
March 30, 2025
Auteurs: Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja
cs.AI
Résumé
Les systèmes de reconnaissance automatique de la parole ont indéniablement progressé grâce à l'intégration de modèles multilingues et multitâches tels que Whisper, qui ont démontré une capacité prometteuse à comprendre et à traiter la parole dans un large éventail de langues. Malgré leur robustesse, ces modèles peinent souvent à gérer les distinctions linguistiques des langues minoritaires. Cette étude comble cette lacune en intégrant des modèles de langage traditionnels et novateurs avec des modèles Whisper affinés pour améliorer leurs performances dans les langues moins étudiées. Grâce à un affinage rigoureux et à une évaluation sur plusieurs jeux de données, nous démontrons des améliorations substantielles du taux d'erreur sur les mots, en particulier dans des scénarios à faibles ressources. Notre approche tire non seulement parti des vastes données sur lesquelles Whisper a été pré-entraîné, mais complète également son adaptabilité linguistique en incorporant des modèles de langage. Nous avons obtenu des améliorations allant jusqu'à 51 % pour les jeux de données en distribution et jusqu'à 34 % pour les phrases hors distribution en utilisant des modèles de langage statistiques, tandis que les grands modèles de langage ont fourni des améliorations modérées mais constamment robustes dans divers contextes linguistiques. Les résultats révèlent que, bien que l'intégration profite de manière fiable à toutes les tailles de modèles, l'ampleur de l'amélioration varie, soulignant l'importance des paramètres optimisés des modèles de langage. Enfin, nous insistons sur l'importance de sélectionner des paramètres d'évaluation appropriés lors de la communication des résultats avec des modèles ASR basés sur des transformeurs. En résumé, cette recherche ouvre la voie à des technologies ASR plus inclusives qui performent mieux à travers les langues en enrichissant leurs connaissances linguistiques. Pour plus de détails sur la mise en œuvre de cette étude, la documentation technique et le code source sont disponibles à l'adresse http://www.github.com/hitz-zentroa/whisper-lm.
English
Automatic speech recognition systems have undoubtedly advanced with the
integration of multilingual and multitask models such as Whisper, which have
shown a promising ability to understand and process speech across a wide range
of languages. Despite their robustness, these models often fall short in
handling the linguistic distinctions of minority languages. This study
addresses this gap by integrating traditional and novel language models with
fine-tuned Whisper models to raise their performance in less commonly studied
languages. Through rigorous fine-tuning and evaluation across multiple
datasets, we demonstrate substantial improvements in word error rate,
particularly in low-resource scenarios. Our approach not only does take
advantage of the extensive data Whisper was pre-trained on, but also
complements its linguistic adaptability by incorporating language models. We
obtained improvements up to 51\% for in-distribution datasets and up to 34\%
for out-of-distribution sentences using statistical language models, while
large language models provided moderate but consistently robust improvement
across diverse linguistic contexts. The findings reveal that, while the
integration reliably benefits all model sizes, the extent of improvement
varies, highlighting the importance of optimized language model parameters.
Finally, we emphasize the importance of selecting appropriate evaluation
parameters when reporting the results using transformer-based ASR models. In
summary, this research clears the way for more inclusive ASR technologies that
perform better across languages by enriching their linguistic knowledge. For
further implementation details of this study, the technical documentation and
source code are available at http://www.github.com/hitz-zentroa/whisper-lm.Summary
AI-Generated Summary