MIBURI: 表現力豊かなインタラクティブジェスチャー合成に向けて
MIBURI: Towards Expressive Interactive Gesture Synthesis
March 3, 2026
著者: M. Hamza Mughal, Rishabh Dabral, Vera Demberg, Christian Theobalt
cs.AI
要旨
具体化対話エージェント(ECA)は、音声、ジェスチャー、表情を通じて人間の対面相互作用を模倣することを目的としている。現在の大規模言語モデル(LLM)ベースの対話エージェントは、具体性と自然な相互作用に不可欠な表現豊かなジェスチャーを欠いている。既存のECAソリューションは、しばしば硬直的で多様性に乏しい動作を生成し、人間らしい相互作用には不向きである。一方、共話ジェスチャー合成のための生成的手法は自然な身体動作を生み出すが、未来の音声コンテキストに依存し、長い実行時間を要する。この課題を解決するため、本論文では実時間音声対話と同期した表現豊かな全身ジェスチャーと表情を生成する、初のオンライン因果的フレームワーク「MIBURI」を提案する。我々は、階層的な動作詳細を多段階の離散トークンに符号化する身体部位認識ジェスチャーコーデックを採用する。これらのトークンは、LLMベースの音声テキスト埋め込みを条件として、時間的ダイナミクスと部位レベルの動作階層を実時間でモデル化する二次元因果的フレームワークにより自己回帰的に生成される。さらに、表現力豊かで多様なジェスチャーを促進し、静止姿勢への収束を防ぐための補助目的関数を導入する。比較評価により、我々の因果的かつ実時間のアプローチが、最近のベースラインと比較して自然で文脈に合致したジェスチャーを生成することを実証する。デモ動画をhttps://vcai.mpi-inf.mpg.de/projects/MIBURI/ でご覧いただきたい。
English
Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.