ChatPaper.aiChatPaper

OmniResponse: Online-Multimodale Konversationsantwortgenerierung in dyadischen Interaktionen

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

May 27, 2025
papers.authors: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI

papers.abstract

In diesem Artikel stellen wir Online Multimodal Conversational Response Generation (OMCRG) vor, eine neuartige Aufgabe, die darauf abzielt, synchronisierte verbale und nonverbale Rückmeldungen des Zuhörers online zu generieren, basierend auf dem multimodalen Input des Sprechers. OMCRG spiegelt natürliche dyadische Interaktionen wider und stellt neue Herausforderungen bei der Synchronisation zwischen den generierten Audio- und Gesichtsreaktionen des Zuhörers dar. Um diese Herausforderungen zu bewältigen, führen wir innovativ Text als intermediäre Modalität ein, um die Audio- und Gesichtsreaktionen zu verbinden. Wir schlagen daher OmniResponse vor, ein Multimodales Großes Sprachmodell (MLLM), das autoregressiv hochwertige multimodale Zuhörerreaktionen generiert. OmniResponse nutzt ein vortrainiertes LLM, das durch zwei neuartige Komponenten erweitert wird: Chrono-Text, das generierte Texttokens zeitlich verankert, und TempoVoice, ein kontrollierbares Online-TTS-Modul, das Sprache synchron zu Gesichtsreaktionen erzeugt. Um die weitere OMCRG-Forschung zu unterstützen, präsentieren wir ResponseNet, einen neuen Datensatz, der 696 hochwertige dyadische Interaktionen mit synchronisierten Split-Screen-Videos, Mehrkanal-Audio, Transkripten und Gesichtsverhaltensannotationen umfasst. Umfassende Evaluierungen auf ResponseNet zeigen, dass OmniResponse Baseline-Modelle in Bezug auf semantischen Sprachinhalt, audiovisuelle Synchronisation und Generierungsqualität deutlich übertrifft.
English
In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task that aims to online generate synchronized verbal and non-verbal listener feedback, conditioned on the speaker's multimodal input. OMCRG reflects natural dyadic interactions and poses new challenges in achieving synchronization between the generated audio and facial responses of the listener. To address these challenges, we innovatively introduce text as an intermediate modality to bridge the audio and facial responses. We hence propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates high-quality multi-modal listener responses. OmniResponse leverages a pretrained LLM enhanced with two novel components: Chrono-Text, which temporally anchors generated text tokens, and TempoVoice, a controllable online TTS module that produces speech synchronized with facial reactions. To support further OMCRG research, we present ResponseNet, a new dataset comprising 696 high-quality dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and facial behavior annotations. Comprehensive evaluations conducted on ResponseNet demonstrate that OmniResponse significantly outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality.
PDF42June 3, 2025