InterActHuman : Animation humaine multi-concept avec conditions audio alignées sur la mise en page
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
June 11, 2025
Auteurs: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI
Résumé
L'animation humaine de bout en bout avec des conditions multimodales riches, telles que le texte, l'image et l'audio, a connu des avancées remarquables ces dernières années. Cependant, la plupart des méthodes existantes ne peuvent animer qu'un seul sujet et injectent les conditions de manière globale, ignorant les scénarios où plusieurs concepts peuvent apparaître dans la même vidéo avec des interactions riches entre humains et entre humains et objets. Cette hypothèse globale empêche un contrôle précis et par identité de multiples concepts, incluant les humains et les objets, limitant ainsi les applications. Dans ce travail, nous abandonnons l'hypothèse d'une seule entité et introduisons un nouveau cadre qui impose un lien fort et spécifique à une région entre les conditions des modalités et l'empreinte spatio-temporelle de chaque identité. Étant donné des images de référence de plusieurs concepts, notre méthode peut inférer automatiquement les informations de disposition en exploitant un prédicteur de masque pour faire correspondre les indices d'apparence entre la vidéo débruitée et chaque apparence de référence. De plus, nous injectons une condition audio locale dans sa région correspondante pour assurer une correspondance des modalités alignée sur la disposition de manière itérative. Cette conception permet la génération de haute qualité de vidéos centrées sur l'humain et contrôlables avec plusieurs concepts. Les résultats empiriques et les études d'ablation valident l'efficacité de notre contrôle explicite de la disposition pour les conditions multimodales par rapport aux contreparties implicites et autres méthodes existantes.
English
End-to-end human animation with rich multi-modal conditions, e.g., text,
image and audio has achieved remarkable advancements in recent years. However,
most existing methods could only animate a single subject and inject conditions
in a global manner, ignoring scenarios that multiple concepts could appears in
the same video with rich human-human interactions and human-object
interactions. Such global assumption prevents precise and per-identity control
of multiple concepts including humans and objects, therefore hinders
applications. In this work, we discard the single-entity assumption and
introduce a novel framework that enforces strong, region-specific binding of
conditions from modalities to each identity's spatiotemporal footprint. Given
reference images of multiple concepts, our method could automatically infer
layout information by leveraging a mask predictor to match appearance cues
between the denoised video and each reference appearance. Furthermore, we
inject local audio condition into its corresponding region to ensure
layout-aligned modality matching in a iterative manner. This design enables the
high-quality generation of controllable multi-concept human-centric videos.
Empirical results and ablation studies validate the effectiveness of our
explicit layout control for multi-modal conditions compared to implicit
counterparts and other existing methods.