ChatPaper.aiChatPaper

Ex-Omni: Ermöglichung der 3D-Gesichtsanimationsgenerierung für omni-modale große Sprachmodelle

Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

February 6, 2026
papers.authors: Haoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu
cs.AI

papers.abstract

Omni-modale große Sprachmodelle (OLLMs) zielen darauf ab, multimodales Verständnis und Generierung zu vereinheitlichen, doch die Integration von Sprache mit 3D-Gesichtsanimation bleibt trotz ihrer Bedeutung für natürliche Interaktion weitgehend unerforscht. Eine zentrale Herausforderung ergibt sich aus dem Repräsentationsunterschied zwischen dem diskreten, token-basierten semantischen Schließen in LLMs und den dichten, fein granularen zeitlichen Dynamiken, die für 3D-Gesichtsbewegungen erforderlich sind, was die direkte Modellierung unter begrenzten Daten schwierig zu optimieren macht. Wir schlagen Expressive Omni (Ex-Omni) vor, ein Open-Source-omni-modales Framework, das OLLMs um sprachbegleitete 3D-Gesichtsanimation erweitert. Ex-Omni verringert die Lernschwierigkeit, indem es semantisches Schließen von zeitlicher Generierung entkoppelt, Spracheinheiten als zeitliche Gerüststruktur nutzt und einen vereinheitlichten Token-as-Query-Gated-Fusion (TQGF)-Mechanismus für kontrollierte semantische Injection einsetzt. Wir führen außerdem InstructEx ein, einen Datensatz, der darauf abzielt, die Erweiterung von OLLMs um sprachbegleitete 3D-Gesichtsanimation zu erleichtern. Umfangreiche Experimente zeigen, dass Ex-Omni wettbewerbsfähig mit bestehenden Open-Source-OLLMs abschneidet und dabei eine stabile, synchronisierte Generierung von Sprache und Gesichtsanimation ermöglicht.
English
Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.
PDF112February 13, 2026