Whisper-LM: Verbetering van ASR-modellen met taalmodelen voor talen met beperkte bronnen
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages
March 30, 2025
Auteurs: Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja
cs.AI
Samenvatting
Automatische spraakherkenningssystemen hebben ontegenzeggelijk vooruitgang geboekt met de integratie van meertalige en multitask-modellen zoals Whisper, die een veelbelovend vermogen hebben getoond om spraak in een breed scala aan talen te begrijpen en te verwerken. Ondanks hun robuustheid schieten deze modellen vaak tekort in het omgaan met de linguïstische nuances van minderheidstalen. Deze studie behandelt deze kloof door traditionele en nieuwe taalmodelen te integreren met fijn afgestemde Whisper-modellen om hun prestaties in minder bestudeerde talen te verbeteren. Door rigoureuze fine-tuning en evaluatie over meerdere datasets tonen we aanzienlijke verbeteringen in de woordfoutratio aan, vooral in scenario's met beperkte bronnen. Onze benadering maakt niet alleen gebruik van de uitgebreide gegevens waarop Whisper is voorgetraind, maar vult de linguïstische aanpassingsvermogen aan door taalmodelen te incorporeren. We behaalden verbeteringen tot 51\% voor in-distributie datasets en tot 34\% voor out-of-distributie zinnen met behulp van statistische taalmodelen, terwijl grote taalmodelen matige maar consistent robuuste verbeteringen boden in diverse linguïstische contexten. De bevindingen onthullen dat, hoewel de integratie betrouwbaar voordelen biedt voor alle modelgroottes, de omvang van de verbetering varieert, wat het belang van geoptimaliseerde taalmodelparameters benadrukt. Tot slot benadrukken we het belang van het selecteren van geschikte evaluatieparameters bij het rapporteren van resultaten met transformer-gebaseerde ASR-modellen. Samenvattend effent dit onderzoek de weg voor meer inclusieve ASR-technologieën die beter presteren over talen heen door hun linguïstische kennis te verrijken. Voor verdere implementatiedetails van deze studie zijn de technische documentatie en broncode beschikbaar op http://www.github.com/hitz-zentroa/whisper-lm.
English
Automatic speech recognition systems have undoubtedly advanced with the
integration of multilingual and multitask models such as Whisper, which have
shown a promising ability to understand and process speech across a wide range
of languages. Despite their robustness, these models often fall short in
handling the linguistic distinctions of minority languages. This study
addresses this gap by integrating traditional and novel language models with
fine-tuned Whisper models to raise their performance in less commonly studied
languages. Through rigorous fine-tuning and evaluation across multiple
datasets, we demonstrate substantial improvements in word error rate,
particularly in low-resource scenarios. Our approach not only does take
advantage of the extensive data Whisper was pre-trained on, but also
complements its linguistic adaptability by incorporating language models. We
obtained improvements up to 51\% for in-distribution datasets and up to 34\%
for out-of-distribution sentences using statistical language models, while
large language models provided moderate but consistently robust improvement
across diverse linguistic contexts. The findings reveal that, while the
integration reliably benefits all model sizes, the extent of improvement
varies, highlighting the importance of optimized language model parameters.
Finally, we emphasize the importance of selecting appropriate evaluation
parameters when reporting the results using transformer-based ASR models. In
summary, this research clears the way for more inclusive ASR technologies that
perform better across languages by enriching their linguistic knowledge. For
further implementation details of this study, the technical documentation and
source code are available at http://www.github.com/hitz-zentroa/whisper-lm.Summary
AI-Generated Summary