ChatPaper.aiChatPaper

OmniResponse: Генерация мультимодальных диалоговых ответов в режиме реального времени в рамках диадических взаимодействий

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

May 27, 2025
Авторы: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI

Аннотация

В данной статье мы представляем задачу Online Multimodal Conversational Response Generation (OMCRG), которая направлена на онлайн-генерацию синхронизированных вербальных и невербальных реакций слушателя, обусловленных мультимодальным вводом говорящего. OMCRG отражает естественные диадические взаимодействия и ставит новые задачи в достижении синхронизации между генерируемыми аудио и мимическими реакциями слушателя. Для решения этих задач мы инновационно вводим текст в качестве промежуточной модальности, чтобы связать аудио и мимические реакции. Мы предлагаем OmniResponse, мультимодальную большую языковую модель (MLLM), которая авторегрессивно генерирует высококачественные мультимодальные реакции слушателя. OmniResponse использует предварительно обученную языковую модель, усиленную двумя новыми компонентами: Chrono-Text, который временно привязывает генерируемые текстовые токены, и TempoVoice, управляемый онлайн-модуль синтеза речи, который производит речь, синхронизированную с мимическими реакциями. Для поддержки дальнейших исследований OMCRG мы представляем ResponseNet, новый набор данных, включающий 696 высококачественных диадических взаимодействий с синхронизированными разделенными экранами видео, многоканальным аудио, транскриптами и аннотациями мимического поведения. Комплексные оценки, проведенные на ResponseNet, демонстрируют, что OmniResponse значительно превосходит базовые модели по семантическому содержанию речи, аудиовизуальной синхронизации и качеству генерации.
English
In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task that aims to online generate synchronized verbal and non-verbal listener feedback, conditioned on the speaker's multimodal input. OMCRG reflects natural dyadic interactions and poses new challenges in achieving synchronization between the generated audio and facial responses of the listener. To address these challenges, we innovatively introduce text as an intermediate modality to bridge the audio and facial responses. We hence propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates high-quality multi-modal listener responses. OmniResponse leverages a pretrained LLM enhanced with two novel components: Chrono-Text, which temporally anchors generated text tokens, and TempoVoice, a controllable online TTS module that produces speech synchronized with facial reactions. To support further OMCRG research, we present ResponseNet, a new dataset comprising 696 high-quality dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and facial behavior annotations. Comprehensive evaluations conducted on ResponseNet demonstrate that OmniResponse significantly outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality.
PDF42June 3, 2025