ChatPaper.aiChatPaper

Ex-Omni: Habilitando la Generación de Animación Facial 3D para Modelos de Lenguaje Grande Omnimodales

Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

February 6, 2026
Autores: Haoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu
cs.AI

Resumen

Los modelos de lenguaje grandes omni-modales (OLLMs) buscan unificar la comprensión y generación multimodal; sin embargo, la incorporación del habla con animación facial 3D sigue siendo un área poco explorada, a pesar de su importancia para la interacción natural. Un desafío clave surge del desajuste de representación entre el razonamiento semántico discreto a nivel de tokens en los LLMs y las dinámicas temporales densas y de grano fino requeridas para el movimiento facial 3D, lo que dificulta la optimización del modelado directo con datos limitados. Proponemos Expressive Omni (Ex-Omni), un marco omni-modal de código abierto que aumenta los OLLMs con animación facial 3D acompañada de habla. Ex-Omni reduce la dificultad de aprendizaje al desacoplar el razonamiento semántico de la generación temporal, utilizando unidades de habla como andamiaje temporal y un mecanismo unificado de fusión controlada por tokens como consultas (TQGF) para la inyección semántica controlada. Además, presentamos InstructEx, un conjunto de datos diseñado para facilitar la mejora de los OLLMs con animación facial 3D acompañada de habla. Experimentos exhaustivos demuestran que Ex-Omni tiene un rendimiento competitivo frente a los OLLMs de código abierto existentes, al mismo tiempo que permite una generación estable y alineada de habla y animación facial.
English
Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.
PDF112February 13, 2026