ChatPaper.aiChatPaper

Zero-AVSR: Riconoscimento Audio-Visuale del Parlato Zero-Shot con LLM mediante l'Apprendimento di Rappresentazioni del Parlato Agnostiche alla Lingua

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

March 8, 2025
Autori: Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
cs.AI

Abstract

Esploriamo un nuovo framework di Riconoscimento Audio-Visivo del Parlato (AVSR) zero-shot, denominato Zero-AVSR, che consente il riconoscimento del parlato in lingue target senza richiedere alcun dato audio-visivo del parlato in quelle lingue. Nello specifico, introduciamo il Romanizzatore Audio-Visivo del Parlato (AV-Romanizer), che apprende rappresentazioni del parlato indipendenti dalla lingua prevedendo testo in caratteri latini. Successivamente, sfruttando le forti capacità di modellazione multilingue dei Modelli Linguistici di Grande Dimensione (LLM), proponiamo di convertire il testo latino previsto in grafemi specifici della lingua, formando il cosiddetto Zero-AVSR a Cascata. Andando oltre, esploriamo un approccio unificato di Zero-AVSR integrando direttamente le rappresentazioni audio-visive del parlato codificate dall'AV-Romanizer nell'LLM. Questo è ottenuto attraverso il fine-tuning dell'adapter e dell'LLM utilizzando il nostro schema di apprendimento multi-task proposto. Per catturare l'ampio spettro della diversità fonetica e linguistica, introduciamo anche un Corpus Romanizzato Audio-Visivo Multilingue (MARC) composto da 2.916 ore di dati audio-visivi del parlato in 82 lingue, insieme a trascrizioni sia in grafemi specifici della lingua che in testo latino. Analisi ed esperimenti estesi confermano che il framework Zero-AVSR proposto ha il potenziale di espandere il supporto linguistico oltre le lingue osservate durante l'addestramento dell'AV-Romanizer.
English
We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR) framework, dubbed Zero-AVSR, which enables speech recognition in target languages without requiring any audio-visual speech data in those languages. Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer), which learns language-agnostic speech representations by predicting Roman text. Then, by leveraging the strong multilingual modeling capabilities of Large Language Models (LLMs), we propose converting the predicted Roman text into language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it a step further, we explore a unified Zero-AVSR approach by directly integrating the audio-visual speech representations encoded by the AV-Romanizer into the LLM. This is achieved through finetuning the adapter and the LLM using our proposed multi-task learning scheme. To capture the wide spectrum of phonetic and linguistic diversity, we also introduce a Multilingual Audio-Visual Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data across 82 languages, along with transcriptions in both language-specific graphemes and Roman text. Extensive analysis and experiments confirm that the proposed Zero-AVSR framework has the potential to expand language support beyond the languages seen during the training of the AV-Romanizer.

Summary

AI-Generated Summary

PDF52March 11, 2025