OmniResponse : Génération en ligne de réponses conversationnelles multimodales dans les interactions dyadiques
OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
May 27, 2025
Auteurs: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI
Résumé
Dans cet article, nous présentons la Génération de Réponses Conversationnelles Multimodales en Temps Réel (OMCRG), une nouvelle tâche visant à générer en ligne des retours verbaux et non verbaux synchronisés de l'auditeur, conditionnés par l'entrée multimodale du locuteur. L'OMCRG reflète les interactions dyadiques naturelles et pose de nouveaux défis pour atteindre la synchronisation entre les réponses audio et faciales générées de l'auditeur. Pour relever ces défis, nous introduisons de manière innovante le texte comme modalité intermédiaire pour relier les réponses audio et faciales. Nous proposons ainsi OmniResponse, un Modèle de Langage Multimodal (MLLM) qui génère de manière autoregressive des réponses multimodales de haute qualité de l'auditeur. OmniResponse s'appuie sur un LLM pré-entraîné enrichi de deux nouveaux composants : Chrono-Text, qui ancre temporellement les tokens de texte générés, et TempoVoice, un module TTS en ligne contrôlable qui produit un discours synchronisé avec les réactions faciales. Pour soutenir les recherches futures sur l'OMCRG, nous présentons ResponseNet, un nouveau jeu de données comprenant 696 interactions dyadiques de haute qualité avec des vidéos en écran partagé synchronisées, des audios multicanal, des transcriptions et des annotations de comportements faciaux. Les évaluations approfondies menées sur ResponseNet démontrent qu'OmniResponse surpasse significativement les modèles de référence en termes de contenu sémantique du discours, de synchronisation audio-visuelle et de qualité de génération.
English
In this paper, we introduce Online Multimodal Conversational Response
Generation (OMCRG), a novel task that aims to online generate synchronized
verbal and non-verbal listener feedback, conditioned on the speaker's
multimodal input. OMCRG reflects natural dyadic interactions and poses new
challenges in achieving synchronization between the generated audio and facial
responses of the listener. To address these challenges, we innovatively
introduce text as an intermediate modality to bridge the audio and facial
responses. We hence propose OmniResponse, a Multimodal Large Language Model
(MLLM) that autoregressively generates high-quality multi-modal listener
responses. OmniResponse leverages a pretrained LLM enhanced with two novel
components: Chrono-Text, which temporally anchors generated text tokens, and
TempoVoice, a controllable online TTS module that produces speech synchronized
with facial reactions. To support further OMCRG research, we present
ResponseNet, a new dataset comprising 696 high-quality dyadic interactions
featuring synchronized split-screen videos, multichannel audio, transcripts,
and facial behavior annotations. Comprehensive evaluations conducted on
ResponseNet demonstrate that OmniResponse significantly outperforms baseline
models in terms of semantic speech content, audio-visual synchronization, and
generation quality.