ChatPaper.aiChatPaper

OmniResponse: Generazione Online di Risposte Conversazionali Multimodali nelle Interazioni Diadiche

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

May 27, 2025
Autori: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI

Abstract

In questo articolo, introduciamo la Generazione Online di Risposte Conversazionali Multimodali (OMCRG), un nuovo compito che mira a generare in tempo reale feedback verbali e non verbali sincronizzati da parte dell'ascoltatore, condizionati dall'input multimodale del parlante. L'OMCRG riflette le interazioni diadiche naturali e pone nuove sfide nel raggiungere la sincronizzazione tra l'audio generato e le reazioni facciali dell'ascoltatore. Per affrontare queste sfide, introduciamo in modo innovativo il testo come modalità intermedia per collegare le risposte audio e facciali. Proponiamo quindi OmniResponse, un Modello Linguistico Multimodale di Grande Dimensione (MLLM) che genera autoregressivamente risposte multimodali di alta qualità da parte dell'ascoltatore. OmniResponse sfrutta un LLM pre-addestrato potenziato con due nuovi componenti: Chrono-Text, che ancor temporalmente i token di testo generati, e TempoVoice, un modulo TTS online controllabile che produce discorsi sincronizzati con le reazioni facciali. Per supportare ulteriori ricerche sull'OMCRG, presentiamo ResponseNet, un nuovo dataset composto da 696 interazioni diadiche di alta qualità che includono video split-screen sincronizzati, audio multicanale, trascrizioni e annotazioni del comportamento facciale. Valutazioni complete condotte su ResponseNet dimostrano che OmniResponse supera significativamente i modelli di riferimento in termini di contenuto semantico del discorso, sincronizzazione audio-visiva e qualità della generazione.
English
In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task that aims to online generate synchronized verbal and non-verbal listener feedback, conditioned on the speaker's multimodal input. OMCRG reflects natural dyadic interactions and poses new challenges in achieving synchronization between the generated audio and facial responses of the listener. To address these challenges, we innovatively introduce text as an intermediate modality to bridge the audio and facial responses. We hence propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates high-quality multi-modal listener responses. OmniResponse leverages a pretrained LLM enhanced with two novel components: Chrono-Text, which temporally anchors generated text tokens, and TempoVoice, a controllable online TTS module that produces speech synchronized with facial reactions. To support further OMCRG research, we present ResponseNet, a new dataset comprising 696 high-quality dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and facial behavior annotations. Comprehensive evaluations conducted on ResponseNet demonstrate that OmniResponse significantly outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality.
PDF42June 3, 2025