MIBURI: 표현력 있는 인터랙티브 제스처 합성을 향하여
MIBURI: Towards Expressive Interactive Gesture Synthesis
March 3, 2026
저자: M. Hamza Mughal, Rishabh Dabral, Vera Demberg, Christian Theobalt
cs.AI
초록
구현된 대화 에이전트(ECA)는 음성, 제스처, 얼굴 표정을 통해 인간의 대면 상호작용을 모방하는 것을 목표로 합니다. 현재 대규모 언어 모델(LLM) 기반 대화 에이전트는 구현성과 자연스러운 상호작용에 필수적인 표현적 제스처가 부족합니다. 기존 ECA 솔루션은 종종 경직되고 다양성이 낮은 동작을 생성하여 인간과 유사한 상호작용에 부적합합니다. 또는 동시 발화 제스처 합성을 위한 생성적 방법은 자연스러운 신체 동작을 만들어내지만 미래의 발화 문맥에 의존하며 긴 실행 시간이 필요합니다. 이러한 격차를 해소하기 위해 우리는 실시간 구어 대화와 동기화된 표현적 전신 제스처와 얼굴 표정을 생성하는 최초의 온라인 인과적 프레임워크인 MIBURI를 제시합니다. 우리는 계층적 동작 세부 사항을 다중 수준 이산 토큰으로 인코딩하는 신체 부위 인식 제스처 코덱을 활용합니다. 이러한 토큰은 LLM 기반 발화-텍스트 임베딩에 조건화된 2차원 인과적 프레임워크에 의해 자동회귀적으로 생성되며, 시간적 역동성과 부위 수준 동작 계층 구조를 실시간으로 모델링합니다. 더 나아가 표현적이고 다양한 제스처를 장려하면서 정적 자세로의 수렴을 방지하기 위한 보조 목적 함수를 도입합니다. 비교 평가 결과, 우리의 인과적 실시간 접근법이 최근 기준선 대비 자연스럽고 문맥에 부합하는 제스처를 생성함을 입증합니다. 독자 여러분은 https://vcai.mpi-inf.mpg.de/projects/MIBURI/에서 데모 영상을 확인하시기 바랍니다.
English
Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.