ChatPaper.aiChatPaper

Zero-AVSR: Распознавание аудиовизуальной речи с нулевым обучением с использованием языковых моделей через изучение языково-независимых речевых представлений

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

March 8, 2025
Авторы: Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
cs.AI

Аннотация

Мы исследуем новый подход к распознаванию аудиовизуальной речи (AVSR) в условиях нулевого сценария, названный Zero-AVSR, который позволяет распознавать речь на целевых языках без необходимости использования аудиовизуальных речевых данных на этих языках. В частности, мы представляем Аудиовизуальный Речевой Романизатор (AV-Romanizer), который изучает языково-независимые речевые представления, предсказывая текст в латинской транскрипции. Затем, используя мощные возможности многоязыкового моделирования крупных языковых моделей (LLM), мы предлагаем преобразовывать предсказанный латинский текст в языково-специфичные графемы, формируя предложенный Каскадный Zero-AVSR. Идя дальше, мы исследуем унифицированный подход Zero-AVSR, напрямую интегрируя аудиовизуальные речевые представления, закодированные AV-Romanizer, в LLM. Это достигается путем тонкой настройки адаптера и LLM с использованием предложенной нами схемы многозадачного обучения. Чтобы охватить широкий спектр фонетического и лингвистического разнообразия, мы также представляем Многоязычный Аудиовизуальный Романизированный Корпус (MARC), состоящий из 2 916 часов аудиовизуальных речевых данных на 82 языках, вместе с транскрипциями как в языково-специфичных графемах, так и в латинской транскрипции. Обширный анализ и эксперименты подтверждают, что предложенный подход Zero-AVSR имеет потенциал для расширения языковой поддержки за пределы языков, представленных при обучении AV-Romanizer.
English
We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR) framework, dubbed Zero-AVSR, which enables speech recognition in target languages without requiring any audio-visual speech data in those languages. Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer), which learns language-agnostic speech representations by predicting Roman text. Then, by leveraging the strong multilingual modeling capabilities of Large Language Models (LLMs), we propose converting the predicted Roman text into language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it a step further, we explore a unified Zero-AVSR approach by directly integrating the audio-visual speech representations encoded by the AV-Romanizer into the LLM. This is achieved through finetuning the adapter and the LLM using our proposed multi-task learning scheme. To capture the wide spectrum of phonetic and linguistic diversity, we also introduce a Multilingual Audio-Visual Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data across 82 languages, along with transcriptions in both language-specific graphemes and Roman text. Extensive analysis and experiments confirm that the proposed Zero-AVSR framework has the potential to expand language support beyond the languages seen during the training of the AV-Romanizer.

Summary

AI-Generated Summary

PDF52March 11, 2025