ChatPaper.aiChatPaper

OmniResponse: Online Multimodale Conversatie Response Generatie in Dyadische Interacties

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

May 27, 2025
Auteurs: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI

Samenvatting

In dit artikel introduceren we Online Multimodale Conversatie Response Generatie (OMCRG), een nieuwe taak die als doel heeft om online gesynchroniseerde verbale en non-verbale luisteraarfeedback te genereren, gebaseerd op de multimodale input van de spreker. OMCRG weerspiegelt natuurlijke dyadische interacties en brengt nieuwe uitdagingen met zich mee bij het bereiken van synchronisatie tussen de gegenereerde audio en gezichtsreacties van de luisteraar. Om deze uitdagingen aan te pakken, introduceren we innovatief tekst als een intermediaire modaliteit om de audio en gezichtsreacties te verbinden. We stellen daarom OmniResponse voor, een Multimodaal Taalmodel (MLLM) dat autoregressief hoogwaardige multimodale luisteraarreacties genereert. OmniResponse maakt gebruik van een voorgetraind Taalmodel (LLM) dat is versterkt met twee nieuwe componenten: Chrono-Text, dat gegenereerde teksttokens tijdelijk verankert, en TempoVoice, een controleerbare online TTS-module die spraak produceert die gesynchroniseerd is met gezichtsreacties. Om verder onderzoek naar OMCRG te ondersteunen, presenteren we ResponseNet, een nieuwe dataset bestaande uit 696 hoogwaardige dyadische interacties met gesynchroniseerde split-screen video's, meerkanaals audio, transcripties en annotaties van gezichtsgedrag. Uitgebreide evaluaties uitgevoerd op ResponseNet tonen aan dat OmniResponse baseline-modellen significant overtreft op het gebied van semantische spraakinhoud, audio-visuele synchronisatie en generatiekwaliteit.
English
In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task that aims to online generate synchronized verbal and non-verbal listener feedback, conditioned on the speaker's multimodal input. OMCRG reflects natural dyadic interactions and poses new challenges in achieving synchronization between the generated audio and facial responses of the listener. To address these challenges, we innovatively introduce text as an intermediate modality to bridge the audio and facial responses. We hence propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates high-quality multi-modal listener responses. OmniResponse leverages a pretrained LLM enhanced with two novel components: Chrono-Text, which temporally anchors generated text tokens, and TempoVoice, a controllable online TTS module that produces speech synchronized with facial reactions. To support further OMCRG research, we present ResponseNet, a new dataset comprising 696 high-quality dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and facial behavior annotations. Comprehensive evaluations conducted on ResponseNet demonstrate that OmniResponse significantly outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality.
PDF42June 3, 2025