Ex-Omni: Het mogelijk maken van 3D-gezichtsanimatiegeneratie voor omnimodale grote taalmodellen

Samenvatting

Omni-modale grote taalmodellen (OLLM's) streven naar een unificatie van multimodale interpretatie en generatie, maar de integratie van spraak met 3D-gezichtsanimatie blijft grotendeels onontgonnen, ondanks het belang ervan voor natuurlijke interactie. Een belangrijke uitdaging ontstaat door de representatiemismatch tussen het discrete, token-gebaseerde semantische redeneren in LLM's en de dense, fijnmazige temporele dynamiek die vereist is voor 3D-gezichtsbeweging, wat directe modellering moeilijk optimaliseerbaar maakt onder beperkte data. Wij stellen Expressive Omni (Ex-Omni) voor, een open-source omni-modale framework die OLLM's uitbreidt met spraak-ondersteunde 3D-gezichtsanimatie. Ex-Omni vermindert de leercomplexiteit door semantisch redeneren te ontkoppelen van temporele generatie, waarbij spraakeenheden worden benut als temporele ondersteuningsstructuur en een verenigd token-as-query gegeneraliseerd fusiemechanisme (TQGF) wordt gebruikt voor gecontroleerde semantische injectie. Verder introduceren wij InstructEx, een dataset die tot doel heeft het verrijken van OLLM's met spraak-ondersteunde 3D-gezichtsanimatie te vergemakkelijken. Uitgebreide experimenten tonen aan dat Ex-Omni competitief presteert ten opzichte van bestaande open-source OLLM's, terwijl het stabiele, uitgelijnde generatie van spraak en gezichtsanimatie mogelijk maakt.

English

Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.

Ex-Omni: Het mogelijk maken van 3D-gezichtsanimatiegeneratie voor omnimodale grote taalmodellen

Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

Samenvatting

Support