OmniHuman-1.5: Infondere una mente attiva negli avatar attraverso la simulazione cognitiva
OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation
August 26, 2025
Autori: Jianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Yuan Zhang, Mingyuan Gao
cs.AI
Abstract
I modelli esistenti di avatar video sono in grado di produrre animazioni umane fluide, ma faticano ad andare oltre la semplice somiglianza fisica per catturare l'essenza autentica di un personaggio. I loro movimenti sono tipicamente sincronizzati con segnali di basso livello come il ritmo audio, mancando di una comprensione semantica più profonda delle emozioni, delle intenzioni o del contesto. Per colmare questa lacuna, proponiamo un framework progettato per generare animazioni di personaggi che non solo siano fisicamente plausibili, ma anche semanticamente coerenti ed espressive. Il nostro modello, OmniHuman-1.5, si basa su due contributi tecnici chiave. In primo luogo, sfruttiamo i Modelli Linguistici Multimodali di Grande Scala per sintetizzare una rappresentazione testuale strutturata delle condizioni che fornisce una guida semantica di alto livello. Questa guida orienta il nostro generatore di movimenti oltre la semplice sincronizzazione ritmica, consentendo la produzione di azioni che risuonano contestualmente ed emotivamente. In secondo luogo, per garantire l'effettiva fusione di questi input multimodali e mitigare i conflitti intermodali, introduciamo un'architettura Multimodale DiT specializzata con un nuovo design Pseudo Last Frame. La sinergia di questi componenti permette al nostro modello di interpretare accuratamente la semantica congiunta di audio, immagini e testo, generando così movimenti profondamente coerenti con il personaggio, la scena e il contenuto linguistico. Esperimenti estensivi dimostrano che il nostro modello raggiunge prestazioni leader in un'ampia gamma di metriche, tra cui l'accuratezza del lip-sync, la qualità video, la naturalezza del movimento e la coerenza semantica con i prompt testuali. Inoltre, il nostro approccio mostra una notevole estensibilità a scenari complessi, come quelli che coinvolgono più persone e soggetti non umani. Homepage: https://omnihuman-lab.github.io/v1_5/
English
Existing video avatar models can produce fluid human animations, yet they
struggle to move beyond mere physical likeness to capture a character's
authentic essence. Their motions typically synchronize with low-level cues like
audio rhythm, lacking a deeper semantic understanding of emotion, intent, or
context. To bridge this gap, we propose a framework designed to
generate character animations that are not only physically plausible but also
semantically coherent and expressive. Our model, OmniHuman-1.5, is
built upon two key technical contributions. First, we leverage Multimodal Large
Language Models to synthesize a structured textual representation of conditions
that provides high-level semantic guidance. This guidance steers our motion
generator beyond simplistic rhythmic synchronization, enabling the production
of actions that are contextually and emotionally resonant. Second, to ensure
the effective fusion of these multimodal inputs and mitigate inter-modality
conflicts, we introduce a specialized Multimodal DiT architecture with a novel
Pseudo Last Frame design. The synergy of these components allows our model to
accurately interpret the joint semantics of audio, images, and text, thereby
generating motions that are deeply coherent with the character, scene, and
linguistic content. Extensive experiments demonstrate that our model achieves
leading performance across a comprehensive set of metrics, including lip-sync
accuracy, video quality, motion naturalness and semantic consistency with
textual prompts. Furthermore, our approach shows remarkable extensibility to
complex scenarios, such as those involving multi-person and non-human subjects.
Homepage: https://omnihuman-lab.github.io/v1_5/