Zero-AVSR: Reconocimiento de Habla Audio-Visual de Cero Disparos con LLMs mediante el Aprendizaje de Representaciones de Habla Agnósticas al Idioma
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
March 8, 2025
Autores: Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
cs.AI
Resumen
Exploramos un novedoso marco de Reconocimiento de Habla Audio-Visual (AVSR) de cero disparos, denominado Zero-AVSR, que permite el reconocimiento de habla en idiomas objetivo sin requerir datos de habla audio-visual en esos idiomas. Específicamente, introducimos el Romanizador de Habla Audio-Visual (AV-Romanizer), que aprende representaciones de habla agnósticas al idioma al predecir texto en alfabeto romano. Luego, aprovechando las fuertes capacidades de modelado multilingüe de los Modelos de Lenguaje de Gran Escala (LLMs), proponemos convertir el texto romano predicho en grafemas específicos del idioma, formando el propuesto Zero-AVSR en Cascada. Yendo un paso más allá, exploramos un enfoque unificado de Zero-AVSR al integrar directamente las representaciones de habla audio-visual codificadas por el AV-Romanizer en el LLM. Esto se logra mediante el ajuste fino del adaptador y el LLM utilizando nuestro esquema propuesto de aprendizaje multitarea. Para capturar el amplio espectro de diversidad fonética y lingüística, también introducimos un Corpus Romanizado Audio-Visual Multilingüe (MARC) que consta de 2,916 horas de datos de habla audio-visual en 82 idiomas, junto con transcripciones en grafemas específicos del idioma y texto romano. Análisis y experimentos exhaustivos confirman que el marco Zero-AVSR propuesto tiene el potencial de ampliar el soporte de idiomas más allá de los idiomas vistos durante el entrenamiento del AV-Romanizer.
English
We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR)
framework, dubbed Zero-AVSR, which enables speech recognition in target
languages without requiring any audio-visual speech data in those languages.
Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer),
which learns language-agnostic speech representations by predicting Roman text.
Then, by leveraging the strong multilingual modeling capabilities of Large
Language Models (LLMs), we propose converting the predicted Roman text into
language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it
a step further, we explore a unified Zero-AVSR approach by directly integrating
the audio-visual speech representations encoded by the AV-Romanizer into the
LLM. This is achieved through finetuning the adapter and the LLM using our
proposed multi-task learning scheme. To capture the wide spectrum of phonetic
and linguistic diversity, we also introduce a Multilingual Audio-Visual
Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data
across 82 languages, along with transcriptions in both language-specific
graphemes and Roman text. Extensive analysis and experiments confirm that the
proposed Zero-AVSR framework has the potential to expand language support
beyond the languages seen during the training of the AV-Romanizer.Summary
AI-Generated Summary