Whisper-LM: Verbetering van ASR-modellen met taalmodelen voor talen met beperkte bronnen

Samenvatting

Automatische spraakherkenningssystemen hebben ontegenzeggelijk vooruitgang geboekt met de integratie van meertalige en multitask-modellen zoals Whisper, die een veelbelovend vermogen hebben getoond om spraak in een breed scala aan talen te begrijpen en te verwerken. Ondanks hun robuustheid schieten deze modellen vaak tekort in het omgaan met de linguïstische nuances van minderheidstalen. Deze studie behandelt deze kloof door traditionele en nieuwe taalmodelen te integreren met fijn afgestemde Whisper-modellen om hun prestaties in minder bestudeerde talen te verbeteren. Door rigoureuze fine-tuning en evaluatie over meerdere datasets tonen we aanzienlijke verbeteringen in de woordfoutratio aan, vooral in scenario's met beperkte bronnen. Onze benadering maakt niet alleen gebruik van de uitgebreide gegevens waarop Whisper is voorgetraind, maar vult de linguïstische aanpassingsvermogen aan door taalmodelen te incorporeren. We behaalden verbeteringen tot 51\% voor in-distributie datasets en tot 34\% voor out-of-distributie zinnen met behulp van statistische taalmodelen, terwijl grote taalmodelen matige maar consistent robuuste verbeteringen boden in diverse linguïstische contexten. De bevindingen onthullen dat, hoewel de integratie betrouwbaar voordelen biedt voor alle modelgroottes, de omvang van de verbetering varieert, wat het belang van geoptimaliseerde taalmodelparameters benadrukt. Tot slot benadrukken we het belang van het selecteren van geschikte evaluatieparameters bij het rapporteren van resultaten met transformer-gebaseerde ASR-modellen. Samenvattend effent dit onderzoek de weg voor meer inclusieve ASR-technologieën die beter presteren over talen heen door hun linguïstische kennis te verrijken. Voor verdere implementatiedetails van deze studie zijn de technische documentatie en broncode beschikbaar op http://www.github.com/hitz-zentroa/whisper-lm.

English

Automatic speech recognition systems have undoubtedly advanced with the integration of multilingual and multitask models such as Whisper, which have shown a promising ability to understand and process speech across a wide range of languages. Despite their robustness, these models often fall short in handling the linguistic distinctions of minority languages. This study addresses this gap by integrating traditional and novel language models with fine-tuned Whisper models to raise their performance in less commonly studied languages. Through rigorous fine-tuning and evaluation across multiple datasets, we demonstrate substantial improvements in word error rate, particularly in low-resource scenarios. Our approach not only does take advantage of the extensive data Whisper was pre-trained on, but also complements its linguistic adaptability by incorporating language models. We obtained improvements up to 51\% for in-distribution datasets and up to 34\% for out-of-distribution sentences using statistical language models, while large language models provided moderate but consistently robust improvement across diverse linguistic contexts. The findings reveal that, while the integration reliably benefits all model sizes, the extent of improvement varies, highlighting the importance of optimized language model parameters. Finally, we emphasize the importance of selecting appropriate evaluation parameters when reporting the results using transformer-based ASR models. In summary, this research clears the way for more inclusive ASR technologies that perform better across languages by enriching their linguistic knowledge. For further implementation details of this study, the technical documentation and source code are available at http://www.github.com/hitz-zentroa/whisper-lm.

Whisper-LM: Verbetering van ASR-modellen met taalmodelen voor talen met beperkte bronnen

Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

Samenvatting

Support