Ex-Omni: Abilitazione della Generazione di Animazioni Facciali 3D per Modelli Linguistici Multimodali Omni
Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models
February 6, 2026
Autori: Haoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu
cs.AI
Abstract
I modelli linguistici multimodali onnicomprensivi (OLLM) mirano a unificare la comprensione e la generazione multimodale, tuttavia l'incorporazione del parlato con l'animazione facciale 3D rimane in gran parte inesplorata nonostante la sua importanza per l'interazione naturale. Una sfida fondamentale deriva dalla discrepanza rappresentativa tra il ragionamento semantico discreto a livello di token negli LLM e le dinamiche temporali dense e granulari richieste per il movimento facciale 3D, il che rende difficile ottimizzare la modellazione diretta con dati limitati. Proponiamo Expressive Omni (Ex-Omni), un framework omni-modale open-source che potenzia gli OLLM con l'animazione facciale 3D accompagnata dal parlato. Ex-Omni riduce la difficoltà di apprendimento disaccoppiando il ragionamento semantico dalla generazione temporale, sfruttando le unità di parlato come impalcatura temporale e un meccanismo unificato di fusione controllata semantica token-as-query (TQGF) per l'iniezione semantica controllata. Introduciamo inoltre InstructEx, un dataset che mira a facilitare il potenziamento degli OLLM con l'animazione facciale 3D accompagnata dal parlato. Esperimenti estensivi dimostrano che Ex-Omni compete efficacemente con gli OLLM open-source esistenti, consentendo al contempo una generazione stabile e allineata di animazioni facciali e parlato.
English
Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.