OmniResponse: Generazione Online di Risposte Conversazionali Multimodali nelle Interazioni Diadiche
OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
May 27, 2025
Autori: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI
Abstract
In questo articolo, introduciamo la Generazione Online di Risposte Conversazionali Multimodali (OMCRG), un nuovo compito che mira a generare in tempo reale feedback verbali e non verbali sincronizzati da parte dell'ascoltatore, condizionati dall'input multimodale del parlante. L'OMCRG riflette le interazioni diadiche naturali e pone nuove sfide nel raggiungere la sincronizzazione tra l'audio generato e le reazioni facciali dell'ascoltatore. Per affrontare queste sfide, introduciamo in modo innovativo il testo come modalità intermedia per collegare le risposte audio e facciali. Proponiamo quindi OmniResponse, un Modello Linguistico Multimodale di Grande Dimensione (MLLM) che genera autoregressivamente risposte multimodali di alta qualità da parte dell'ascoltatore. OmniResponse sfrutta un LLM pre-addestrato potenziato con due nuovi componenti: Chrono-Text, che ancor temporalmente i token di testo generati, e TempoVoice, un modulo TTS online controllabile che produce discorsi sincronizzati con le reazioni facciali. Per supportare ulteriori ricerche sull'OMCRG, presentiamo ResponseNet, un nuovo dataset composto da 696 interazioni diadiche di alta qualità che includono video split-screen sincronizzati, audio multicanale, trascrizioni e annotazioni del comportamento facciale. Valutazioni complete condotte su ResponseNet dimostrano che OmniResponse supera significativamente i modelli di riferimento in termini di contenuto semantico del discorso, sincronizzazione audio-visiva e qualità della generazione.
English
In this paper, we introduce Online Multimodal Conversational Response
Generation (OMCRG), a novel task that aims to online generate synchronized
verbal and non-verbal listener feedback, conditioned on the speaker's
multimodal input. OMCRG reflects natural dyadic interactions and poses new
challenges in achieving synchronization between the generated audio and facial
responses of the listener. To address these challenges, we innovatively
introduce text as an intermediate modality to bridge the audio and facial
responses. We hence propose OmniResponse, a Multimodal Large Language Model
(MLLM) that autoregressively generates high-quality multi-modal listener
responses. OmniResponse leverages a pretrained LLM enhanced with two novel
components: Chrono-Text, which temporally anchors generated text tokens, and
TempoVoice, a controllable online TTS module that produces speech synchronized
with facial reactions. To support further OMCRG research, we present
ResponseNet, a new dataset comprising 696 high-quality dyadic interactions
featuring synchronized split-screen videos, multichannel audio, transcripts,
and facial behavior annotations. Comprehensive evaluations conducted on
ResponseNet demonstrate that OmniResponse significantly outperforms baseline
models in terms of semantic speech content, audio-visual synchronization, and
generation quality.