Whisper-LM: Aprimorando Modelos de ASR com Modelos de Linguagem para Idiomas de Baixos Recursos
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages
March 30, 2025
Autores: Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja
cs.AI
Resumo
Sistemas de reconhecimento automático de fala avançaram significativamente com a integração de modelos multilíngues e multitarefa, como o Whisper, que demonstraram uma capacidade promissora de compreender e processar fala em uma ampla gama de idiomas. Apesar de sua robustez, esses modelos frequentemente apresentam dificuldades em lidar com as distinções linguísticas de idiomas minoritários. Este estudo aborda essa lacuna ao integrar modelos linguísticos tradicionais e inovadores com modelos Whisper ajustados para elevar seu desempenho em idiomas menos estudados. Por meio de ajustes finos rigorosos e avaliações em múltiplos conjuntos de dados, demonstramos melhorias substanciais na taxa de erro de palavras, especialmente em cenários de baixos recursos. Nossa abordagem não apenas aproveita os extensos dados nos quais o Whisper foi pré-treinado, mas também complementa sua adaptabilidade linguística ao incorporar modelos de linguagem. Obtivemos melhorias de até 51% para conjuntos de dados dentro da distribuição e até 34% para frases fora da distribuição ao usar modelos de linguagem estatísticos, enquanto modelos de linguagem grandes proporcionaram melhorias moderadas, porém consistentemente robustas, em diversos contextos linguísticos. Os resultados revelam que, embora a integração beneficie de forma confiável todos os tamanhos de modelos, a extensão da melhoria varia, destacando a importância da otimização dos parâmetros dos modelos de linguagem. Por fim, enfatizamos a importância de selecionar parâmetros de avaliação apropriados ao relatar os resultados usando modelos ASR baseados em transformadores. Em resumo, esta pesquisa abre caminho para tecnologias ASR mais inclusivas que apresentam melhor desempenho em diversos idiomas ao enriquecer seu conhecimento linguístico. Para mais detalhes de implementação deste estudo, a documentação técnica e o código-fonte estão disponíveis em http://www.github.com/hitz-zentroa/whisper-lm.
English
Automatic speech recognition systems have undoubtedly advanced with the
integration of multilingual and multitask models such as Whisper, which have
shown a promising ability to understand and process speech across a wide range
of languages. Despite their robustness, these models often fall short in
handling the linguistic distinctions of minority languages. This study
addresses this gap by integrating traditional and novel language models with
fine-tuned Whisper models to raise their performance in less commonly studied
languages. Through rigorous fine-tuning and evaluation across multiple
datasets, we demonstrate substantial improvements in word error rate,
particularly in low-resource scenarios. Our approach not only does take
advantage of the extensive data Whisper was pre-trained on, but also
complements its linguistic adaptability by incorporating language models. We
obtained improvements up to 51\% for in-distribution datasets and up to 34\%
for out-of-distribution sentences using statistical language models, while
large language models provided moderate but consistently robust improvement
across diverse linguistic contexts. The findings reveal that, while the
integration reliably benefits all model sizes, the extent of improvement
varies, highlighting the importance of optimized language model parameters.
Finally, we emphasize the importance of selecting appropriate evaluation
parameters when reporting the results using transformer-based ASR models. In
summary, this research clears the way for more inclusive ASR technologies that
perform better across languages by enriching their linguistic knowledge. For
further implementation details of this study, the technical documentation and
source code are available at http://www.github.com/hitz-zentroa/whisper-lm.Summary
AI-Generated Summary