Zero-AVSR: Zero-Shot Audio-Visuele Spraakherkenning met LLM's door het Leren van Taalonafhankelijke Spraakrepresentaties
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
March 8, 2025
Auteurs: Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
cs.AI
Samenvatting
We onderzoeken een nieuw zero-shot Audio-Visueel Spraakherkenning (AVSR) raamwerk, genaamd Zero-AVSR, dat spraakherkenning in doeltalen mogelijk maakt zonder enige audio-visuele spraakdata in die talen te vereisen. Specifiek introduceren we de Audio-Visuele Spraak Romanizer (AV-Romanizer), die taal-onafhankelijke spraakrepresentaties leert door Romeinse tekst te voorspellen. Vervolgens maken we gebruik van de sterke meertalige modelleringscapaciteiten van Large Language Models (LLMs) door de voorspelde Romeinse tekst om te zetten in taal-specifieke grafemen, wat resulteert in het voorgestelde Cascaded Zero-AVSR. We gaan een stap verder door een geïntegreerde Zero-AVSR aanpak te verkennen, waarbij de audio-visuele spraakrepresentaties die door de AV-Romanizer zijn gecodeerd, direct in de LLM worden geïntegreerd. Dit wordt bereikt door de adapter en de LLM te finetunen met behulp van ons voorgestelde multi-task learning schema. Om het brede spectrum van fonetische en linguïstische diversiteit vast te leggen, introduceren we ook een Meertalig Audio-Visueel Geromaniseerd Corpus (MARC) bestaande uit 2.916 uur aan audio-visuele spraakdata in 82 talen, samen met transcripties in zowel taal-specifieke grafemen als Romeinse tekst. Uitgebreide analyses en experimenten bevestigen dat het voorgestelde Zero-AVSR raamwerk het potentieel heeft om taalondersteuning uit te breiden voorbij de talen die tijdens de training van de AV-Romanizer zijn gezien.
English
We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR)
framework, dubbed Zero-AVSR, which enables speech recognition in target
languages without requiring any audio-visual speech data in those languages.
Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer),
which learns language-agnostic speech representations by predicting Roman text.
Then, by leveraging the strong multilingual modeling capabilities of Large
Language Models (LLMs), we propose converting the predicted Roman text into
language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it
a step further, we explore a unified Zero-AVSR approach by directly integrating
the audio-visual speech representations encoded by the AV-Romanizer into the
LLM. This is achieved through finetuning the adapter and the LLM using our
proposed multi-task learning scheme. To capture the wide spectrum of phonetic
and linguistic diversity, we also introduce a Multilingual Audio-Visual
Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data
across 82 languages, along with transcriptions in both language-specific
graphemes and Roman text. Extensive analysis and experiments confirm that the
proposed Zero-AVSR framework has the potential to expand language support
beyond the languages seen during the training of the AV-Romanizer.Summary
AI-Generated Summary