Ex-Omni:オムニモーダル大規模言語モデルのための3D顔面アニメーション生成の実現
Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models
February 6, 2026
著者: Haoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu
cs.AI
要旨
オムニモーダル大規模言語モデル(OLLM)はマルチモーダルな理解と生成を統合することを目指すが、自然なインタラクションにおいて重要であるにもかかわらず、音声と3D顔面アニメーションの統合は未開拓の領域である。主要な課題は、LLMにおける離散的・トークンレベルの意味推論と、3D顔面モーションに必要な密な時間的ダイナミクスとの表現ミスマッチから生じる。このミスマッチにより、限られたデータ条件下での直接的なモデリングの最適化が困難となる。本論文では、音声を伴う3D顔面アニメーション機能をOLLMに拡張するオープンソースのオムニモーダルフレームワーク、Expressive Omni(Ex-Omni)を提案する。Ex-Omniは、意味推論と時間的生成を分離し、音声ユニットを時間的な足場として活用し、制御された意味注入のための統一されたトークン・アズ・クエリゲート融合(TQGF)メカニズムを用いることで、学習難易度を低減する。さらに、音声を伴う3D顔面アニメーションによるOLLMの拡張を促進することを目的としたデータセットInstructExを導入する。大規模な実験により、Ex-Omniが既存のオープンソースOLLMと競合する性能を発揮しつつ、安定した同期した音声と顔面アニメーションの生成を可能にすることを実証する。
English
Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.