ChatPaper.aiChatPaper

Whisper-LM: Улучшение моделей автоматического распознавания речи с использованием языковых моделей для малоресурсных языков

Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

March 30, 2025
Авторы: Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja
cs.AI

Аннотация

Системы автоматического распознавания речи, несомненно, продвинулись вперед благодаря интеграции многоязычных и многозадачных моделей, таких как Whisper, которые продемонстрировали впечатляющую способность понимать и обрабатывать речь на широком спектре языков. Несмотря на их устойчивость, эти модели часто оказываются недостаточно эффективными в обработке лингвистических особенностей языков меньшинств. Данное исследование направлено на устранение этого пробела путем интеграции традиционных и новых языковых моделей с тонко настроенными моделями Whisper для повышения их производительности в менее изученных языках. Благодаря тщательной настройке и оценке на множестве наборов данных мы демонстрируем значительное улучшение показателя ошибок на слово, особенно в условиях ограниченных ресурсов. Наш подход не только использует преимущества обширных данных, на которых была предварительно обучена модель Whisper, но и дополняет ее лингвистическую адаптивность за счет включения языковых моделей. Мы получили улучшения до 51\% для наборов данных, соответствующих распределению, и до 34\% для предложений, выходящих за пределы распределения, с использованием статистических языковых моделей, в то время как крупные языковые модели обеспечили умеренное, но стабильно надежное улучшение в различных лингвистических контекстах. Результаты показывают, что, хотя интеграция приносит пользу для всех размеров моделей, степень улучшения варьируется, что подчеркивает важность оптимизации параметров языковых моделей. Наконец, мы подчеркиваем важность выбора подходящих параметров оценки при представлении результатов с использованием трансформерных моделей ASR. В заключение, данное исследование прокладывает путь к более инклюзивным технологиям ASR, которые демонстрируют лучшую производительность на различных языках за счет обогащения их лингвистических знаний. Для получения дополнительных сведений о реализации этого исследования техническая документация и исходный код доступны по адресу http://www.github.com/hitz-zentroa/whisper-lm.
English
Automatic speech recognition systems have undoubtedly advanced with the integration of multilingual and multitask models such as Whisper, which have shown a promising ability to understand and process speech across a wide range of languages. Despite their robustness, these models often fall short in handling the linguistic distinctions of minority languages. This study addresses this gap by integrating traditional and novel language models with fine-tuned Whisper models to raise their performance in less commonly studied languages. Through rigorous fine-tuning and evaluation across multiple datasets, we demonstrate substantial improvements in word error rate, particularly in low-resource scenarios. Our approach not only does take advantage of the extensive data Whisper was pre-trained on, but also complements its linguistic adaptability by incorporating language models. We obtained improvements up to 51\% for in-distribution datasets and up to 34\% for out-of-distribution sentences using statistical language models, while large language models provided moderate but consistently robust improvement across diverse linguistic contexts. The findings reveal that, while the integration reliably benefits all model sizes, the extent of improvement varies, highlighting the importance of optimized language model parameters. Finally, we emphasize the importance of selecting appropriate evaluation parameters when reporting the results using transformer-based ASR models. In summary, this research clears the way for more inclusive ASR technologies that perform better across languages by enriching their linguistic knowledge. For further implementation details of this study, the technical documentation and source code are available at http://www.github.com/hitz-zentroa/whisper-lm.

Summary

AI-Generated Summary

PDF103April 4, 2025