ChatPaper.aiChatPaper

Ex-Omni : Permettre la génération d'animation faciale 3D pour les modèles de langage de grande taille omni-modaux

Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

February 6, 2026
papers.authors: Haoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu
cs.AI

papers.abstract

Les grands modèles de langage omnimodaux (OLLM) visent à unifier la compréhension et la génération multimodales, mais l'intégration de la parole avec l'animation faciale 3D reste largement inexplorée malgré son importance pour une interaction naturelle. Un défi majeur provient de l'inadéquation de représentation entre le raisonnement sémantique discret au niveau des tokens dans les LLM et la dynamique temporelle dense et fine requise pour le mouvement facial 3D, ce qui rend la modélisation directe difficile à optimiser avec des données limitées. Nous proposons Expressive Omni (Ex-Omni), un cadre omnimodal open-source qui augmente les OLLM avec une animation faciale 3D accompagnée de parole. Ex-Omni réduit la difficulté d'apprentissage en découplant le raisonnement sémantique de la génération temporelle, en exploitant les unités de parole comme échafaudage temporel et un mécanisme unifié de fusion contrôlée par requête de tokens (TQGF) pour l'injection sémantique contrôlée. Nous présentons également InstructEx, un jeu de données visant à faciliter l'augmentation des OLLM avec une animation faciale 3D accompagnée de parole. Des expériences approfondies démontrent qu'Ex-Omni obtient des performances compétitives par rapport aux OLLM open-source existants tout en permettant une génération stable et alignée de la parole et de l'animation faciale.
English
Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.
PDF112February 13, 2026