Zero-AVSR: Reconhecimento de Fala Áudio-Visual Zero-Shot com LLMs por meio da Aprendizagem de Representações de Fala Independentes de Idioma
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
March 8, 2025
Autores: Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
cs.AI
Resumo
Exploramos uma nova estrutura de Reconhecimento de Fala Áudio-Visual (AVSR) de zero-shot, denominada Zero-AVSR, que permite o reconhecimento de fala em idiomas-alvo sem a necessidade de quaisquer dados de fala áudio-visual nesses idiomas. Especificamente, introduzimos o Romanizador de Fala Áudio-Visual (AV-Romanizer), que aprende representações de fala independentes de idioma ao prever texto em alfabeto romano. Em seguida, ao aproveitar as fortes capacidades de modelagem multilingue dos Modelos de Linguagem de Grande Escala (LLMs), propomos a conversão do texto romano previsto em grafemas específicos de cada idioma, formando a estrutura proposta de Zero-AVSR em Cascata. Indo um passo adiante, exploramos uma abordagem unificada de Zero-AVSR ao integrar diretamente as representações de fala áudio-visual codificadas pelo AV-Romanizer no LLM. Isso é alcançado por meio do ajuste fino do adaptador e do LLM utilizando nosso esquema proposto de aprendizado multitarefa. Para capturar o amplo espectro de diversidade fonética e linguística, também introduzimos um Corpus Romanizado Áudio-Visual Multilíngue (MARC) composto por 2.916 horas de dados de fala áudio-visual em 82 idiomas, juntamente com transcrições em grafemas específicos de cada idioma e em texto romano. Análises e experimentos extensivos confirmam que a estrutura proposta de Zero-AVSR tem o potencial de expandir o suporte a idiomas além daqueles vistos durante o treinamento do AV-Romanizer.
English
We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR)
framework, dubbed Zero-AVSR, which enables speech recognition in target
languages without requiring any audio-visual speech data in those languages.
Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer),
which learns language-agnostic speech representations by predicting Roman text.
Then, by leveraging the strong multilingual modeling capabilities of Large
Language Models (LLMs), we propose converting the predicted Roman text into
language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it
a step further, we explore a unified Zero-AVSR approach by directly integrating
the audio-visual speech representations encoded by the AV-Romanizer into the
LLM. This is achieved through finetuning the adapter and the LLM using our
proposed multi-task learning scheme. To capture the wide spectrum of phonetic
and linguistic diversity, we also introduce a Multilingual Audio-Visual
Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data
across 82 languages, along with transcriptions in both language-specific
graphemes and Roman text. Extensive analysis and experiments confirm that the
proposed Zero-AVSR framework has the potential to expand language support
beyond the languages seen during the training of the AV-Romanizer.Summary
AI-Generated Summary