OmniResponse: 이인간 상호작용에서의 온라인 다중모드 대화 응답 생성
OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
May 27, 2025
저자: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI
초록
본 논문에서는 화자의 다중모달 입력을 조건으로 하여 동기화된 언어적 및 비언어적 청자 피드백을 온라인으로 생성하는 새로운 과제인 온라인 다중모달 대화 응답 생성(Online Multimodal Conversational Response Generation, OMCRG)을 소개한다. OMCRG는 자연스러운 이인간 상호작용을 반영하며, 생성된 청자의 음성과 얼굴 반응 간의 동기화를 달성하는 데 있어 새로운 도전 과제를 제시한다. 이러한 도전 과제를 해결하기 위해, 본 연구에서는 음성과 얼굴 반응을 연결하는 중간 모달리티로서 텍스트를 혁신적으로 도입한다. 이를 바탕으로, 다중모달 대형 언어 모델(Multimodal Large Language Model, MLLM)인 OmniResponse를 제안한다. OmniResponse는 고품질의 다중모달 청자 응답을 자동회귀적으로 생성하며, 두 가지 새로운 구성 요소로 강화된 사전 학습된 LLM을 활용한다: 생성된 텍스트 토큰을 시간적으로 고정하는 Chrono-Text와 얼굴 반응과 동기화된 음성을 생성하는 제어 가능한 온라인 TTS 모듈인 TempoVoice가 그것이다. OMCRG 연구를 더욱 지원하기 위해, 본 연구에서는 동기화된 분할 화면 비디오, 다채널 오디오, 대본 및 얼굴 행동 주석을 포함한 696개의 고품질 이인간 상호작용으로 구성된 새로운 데이터셋인 ResponseNet을 제시한다. ResponseNet에 대해 수행된 포괄적인 평가 결과, OmniResponse는 의미론적 음성 내용, 오디오-비주얼 동기화 및 생성 품질 측면에서 기준 모델들을 크게 능가하는 것으로 나타났다.
English
In this paper, we introduce Online Multimodal Conversational Response
Generation (OMCRG), a novel task that aims to online generate synchronized
verbal and non-verbal listener feedback, conditioned on the speaker's
multimodal input. OMCRG reflects natural dyadic interactions and poses new
challenges in achieving synchronization between the generated audio and facial
responses of the listener. To address these challenges, we innovatively
introduce text as an intermediate modality to bridge the audio and facial
responses. We hence propose OmniResponse, a Multimodal Large Language Model
(MLLM) that autoregressively generates high-quality multi-modal listener
responses. OmniResponse leverages a pretrained LLM enhanced with two novel
components: Chrono-Text, which temporally anchors generated text tokens, and
TempoVoice, a controllable online TTS module that produces speech synchronized
with facial reactions. To support further OMCRG research, we present
ResponseNet, a new dataset comprising 696 high-quality dyadic interactions
featuring synchronized split-screen videos, multichannel audio, transcripts,
and facial behavior annotations. Comprehensive evaluations conducted on
ResponseNet demonstrate that OmniResponse significantly outperforms baseline
models in terms of semantic speech content, audio-visual synchronization, and
generation quality.