Zero-AVSR : Reconnaissance Audio-Visuelle de la Parole en Zero-Shot avec des LLMs par l'Apprentissage de Représentations de la Parole Agnosticues au Langage
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
March 8, 2025
Auteurs: Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
cs.AI
Résumé
Nous explorons un nouveau cadre de Reconnaissance Audio-Visuelle de la Parole (AVSR) en mode zéro-shot, nommé Zero-AVSR, qui permet la reconnaissance de la parole dans des langues cibles sans nécessiter de données audio-visuelles de parole dans ces langues. Plus précisément, nous introduisons le Romaniseur Audio-Visuel de la Parole (AV-Romanizer), qui apprend des représentations de parole indépendantes de la langue en prédisant du texte en alphabet romain. Ensuite, en exploitant les fortes capacités de modélisation multilingue des Modèles de Langue de Grande Taille (LLMs), nous proposons de convertir le texte romain prédit en graphèmes spécifiques à la langue, formant ainsi le Zero-AVSR en cascade. Allant plus loin, nous explorons une approche unifiée de Zero-AVSR en intégrant directement les représentations audio-visuelles de la parole encodées par l'AV-Romanizer dans le LLM. Cela est réalisé en affinant l'adaptateur et le LLM à l'aide de notre schéma d'apprentissage multi-tâches proposé. Pour capturer le large spectre de diversité phonétique et linguistique, nous introduisons également un Corpus Romanisé Audio-Visuel Multilingue (MARC) composé de 2 916 heures de données audio-visuelles de parole couvrant 82 langues, accompagnées de transcriptions en graphèmes spécifiques à la langue et en texte romain. Des analyses et expériences approfondies confirment que le cadre Zero-AVSR proposé a le potentiel d'étendre le support linguistique au-delà des langues vues lors de l'entraînement de l'AV-Romanizer.
English
We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR)
framework, dubbed Zero-AVSR, which enables speech recognition in target
languages without requiring any audio-visual speech data in those languages.
Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer),
which learns language-agnostic speech representations by predicting Roman text.
Then, by leveraging the strong multilingual modeling capabilities of Large
Language Models (LLMs), we propose converting the predicted Roman text into
language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it
a step further, we explore a unified Zero-AVSR approach by directly integrating
the audio-visual speech representations encoded by the AV-Romanizer into the
LLM. This is achieved through finetuning the adapter and the LLM using our
proposed multi-task learning scheme. To capture the wide spectrum of phonetic
and linguistic diversity, we also introduce a Multilingual Audio-Visual
Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data
across 82 languages, along with transcriptions in both language-specific
graphemes and Roman text. Extensive analysis and experiments confirm that the
proposed Zero-AVSR framework has the potential to expand language support
beyond the languages seen during the training of the AV-Romanizer.Summary
AI-Generated Summary