ChatPaper.aiChatPaper

Ex-Omni: 올미모달 대규모 언어 모델을 위한 3D 얼굴 애니메이션 생성 기술

Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

February 6, 2026
저자: Haoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu
cs.AI

초록

옴니모달 대규모 언어 모델(OLLMs)은 다중 모달 이해와 생성을 통합하는 것을 목표로 하지만, 자연스러운 상호작용에 중요함에도 불구하고 음성과 3D 얼굴 애니메이션을 통합하는 연구는 여전히 미흡한 실정입니다. 핵심 과제는 LLM의 이산적 토큰 수준 의미 추론과 3D 얼굴 운동에 필요한 조밀하고 세밀한 시간적 동역학 간의 표현 불일치에서 비롯되며, 이는 제한된 데이터 환경에서 직접적인 모델링의 최적화를 어렵게 만듭니다. 본 연구에서는 음성이 수반되는 3D 얼굴 애니메이션 기능을 OLLMs에 추가하는 오픈소스 옴니모달 프레임워크인 익스프레시브 옴니(Ex-Omni)를 제안합니다. Ex-Omni는 의미 추론과 시간적 생성을 분리하고, 음성 단위를 시간적 비계로 활용하며, 통제된 의미 주입을 위한 통합 토큰-어스-쿼리 게이트드 퓨전(TQGF) 메커니즘을 통해 학습 난이도를 낮춥니다. 또한 음성 수반 3D 얼굴 애니메이션으로 OLLMs의 성능 향상을 돕는 데이터셋인 InstructEx를 소개합니다. 폭넓은 실험을 통해 Ex-Omni가 기존 오픈소스 OLLMs와 비교하여 경쟁력 있는 성능을 보이면서도 안정적으로 정렬된 음성 및 얼굴 애니메이션 생성을 가능하게 함을 입증합니다.
English
Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.
PDF112February 13, 2026