Ex-Omni: Capacitando a Geração de Animação Facial 3D para Modelos de Linguagem de Grande Porte Omnimodais

Resumo

Os grandes modelos de linguagem omni-modais (OLLMs) visam unificar a compreensão e geração multimodal, porém a incorporação da fala com animação facial 3D permanece amplamente inexplorada, apesar de sua importância para a interação natural. Um desafio fundamental surge do descompasso de representação entre o raciocínio semântico discreto a nível de tokens nos LLMs e as dinâmicas temporais densas e refinadas necessárias para o movimento facial 3D, o que dificulta a otimização da modelagem direta sob dados limitados. Propomos o Expressive Omni (Ex-Omni), um framework omni-modal de código aberto que amplia os OLLMs com animação facial 3D acompanhada de fala. O Ex-Omni reduz a dificuldade de aprendizado ao desacoplar o raciocínio semântico da geração temporal, utilizando unidades de fala como estruturação temporal e um mecanismo unificado de fusão controlada por consulta de token (TQGF) para injeção semântica controlada. Introduzimos ainda o InstructEx, um conjunto de dados que visa facilitar o aprimoramento de OLLMs com animação facial 3D acompanhada de fala. Experimentos extensivos demonstram que o Ex-Omni apresenta desempenho competitivo frente aos OLLMs de código aberto existentes, enquanto permite a geração estável e alinhada de fala e animação facial.

English

Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.

Ex-Omni: Capacitando a Geração de Animação Facial 3D para Modelos de Linguagem de Grande Porte Omnimodais

Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

Resumo

Support