ChatPaper.aiChatPaper

Ex-Omni: Обеспечение генерации 3D-анимации лиц для омнимодальных больших языковых моделей

Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

February 6, 2026
Авторы: Haoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu
cs.AI

Аннотация

Омнимодальные большие языковые модели (ОБЯМ) стремятся унифицировать многомодальное понимание и генерацию, однако интеграция речи с 3D-лицевой анимацией остаётся в значительной степени неисследованной, несмотря на её важность для естественного взаимодействия. Ключевая проблема возникает из-за несоответствия представлений между дискретным, токенизированным семантическим анализом в БЯМ и плотной, детализированной временной динамикой, необходимой для 3D-лицевой анимации, что затрудняет прямую оптимизацию модели при ограниченных данных. Мы предлагаем Expressive Omni (Ex-Omni), фреймворк с открытым исходным кодом, который расширяет ОБЯМ возможностью генерации 3D-лицевой анимации, синхронизированной с речью. Ex-Omni снижает сложность обучения за счёт разделения семантического анализа и временной генерации, используя речевые единицы в качестве временного каркаса и унифицированный механизм управляемого слияния с токеном-запросом (TQGF) для контролируемой семантической инжекции. Мы также представляем InstructEx, набор данных, предназначенный для облегчения расширения ОБЯМ возможностями синхронизированной с речью 3D-лицевой анимации. Многочисленные эксперименты демонстрируют, что Ex-Omni показывает конкурентоспособные результаты по сравнению с существующими открытыми ОБЯМ, обеспечивая при этом стабильную генерацию согласованных речевых и лицевых анимаций.
English
Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.
PDF112February 13, 2026