ChatPaper.aiChatPaper

OmniResponse: 이인간 상호작용에서의 온라인 다중모드 대화 응답 생성

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

May 27, 2025
저자: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI

초록

본 논문에서는 화자의 다중모달 입력을 조건으로 하여 동기화된 언어적 및 비언어적 청자 피드백을 온라인으로 생성하는 새로운 과제인 온라인 다중모달 대화 응답 생성(Online Multimodal Conversational Response Generation, OMCRG)을 소개한다. OMCRG는 자연스러운 이인간 상호작용을 반영하며, 생성된 청자의 음성과 얼굴 반응 간의 동기화를 달성하는 데 있어 새로운 도전 과제를 제시한다. 이러한 도전 과제를 해결하기 위해, 본 연구에서는 음성과 얼굴 반응을 연결하는 중간 모달리티로서 텍스트를 혁신적으로 도입한다. 이를 바탕으로, 다중모달 대형 언어 모델(Multimodal Large Language Model, MLLM)인 OmniResponse를 제안한다. OmniResponse는 고품질의 다중모달 청자 응답을 자동회귀적으로 생성하며, 두 가지 새로운 구성 요소로 강화된 사전 학습된 LLM을 활용한다: 생성된 텍스트 토큰을 시간적으로 고정하는 Chrono-Text와 얼굴 반응과 동기화된 음성을 생성하는 제어 가능한 온라인 TTS 모듈인 TempoVoice가 그것이다. OMCRG 연구를 더욱 지원하기 위해, 본 연구에서는 동기화된 분할 화면 비디오, 다채널 오디오, 대본 및 얼굴 행동 주석을 포함한 696개의 고품질 이인간 상호작용으로 구성된 새로운 데이터셋인 ResponseNet을 제시한다. ResponseNet에 대해 수행된 포괄적인 평가 결과, OmniResponse는 의미론적 음성 내용, 오디오-비주얼 동기화 및 생성 품질 측면에서 기준 모델들을 크게 능가하는 것으로 나타났다.
English
In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task that aims to online generate synchronized verbal and non-verbal listener feedback, conditioned on the speaker's multimodal input. OMCRG reflects natural dyadic interactions and poses new challenges in achieving synchronization between the generated audio and facial responses of the listener. To address these challenges, we innovatively introduce text as an intermediate modality to bridge the audio and facial responses. We hence propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates high-quality multi-modal listener responses. OmniResponse leverages a pretrained LLM enhanced with two novel components: Chrono-Text, which temporally anchors generated text tokens, and TempoVoice, a controllable online TTS module that produces speech synchronized with facial reactions. To support further OMCRG research, we present ResponseNet, a new dataset comprising 696 high-quality dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and facial behavior annotations. Comprehensive evaluations conducted on ResponseNet demonstrate that OmniResponse significantly outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality.
PDF42June 3, 2025