ChatPaper.aiChatPaper

InterActHuman : Animation humaine multi-concept avec conditions audio alignées sur la mise en page

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

June 11, 2025
Auteurs: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI

Résumé

L'animation humaine de bout en bout avec des conditions multimodales riches, telles que le texte, l'image et l'audio, a connu des avancées remarquables ces dernières années. Cependant, la plupart des méthodes existantes ne peuvent animer qu'un seul sujet et injectent les conditions de manière globale, ignorant les scénarios où plusieurs concepts peuvent apparaître dans la même vidéo avec des interactions riches entre humains et entre humains et objets. Cette hypothèse globale empêche un contrôle précis et par identité de multiples concepts, incluant les humains et les objets, limitant ainsi les applications. Dans ce travail, nous abandonnons l'hypothèse d'une seule entité et introduisons un nouveau cadre qui impose un lien fort et spécifique à une région entre les conditions des modalités et l'empreinte spatio-temporelle de chaque identité. Étant donné des images de référence de plusieurs concepts, notre méthode peut inférer automatiquement les informations de disposition en exploitant un prédicteur de masque pour faire correspondre les indices d'apparence entre la vidéo débruitée et chaque apparence de référence. De plus, nous injectons une condition audio locale dans sa région correspondante pour assurer une correspondance des modalités alignée sur la disposition de manière itérative. Cette conception permet la génération de haute qualité de vidéos centrées sur l'humain et contrôlables avec plusieurs concepts. Les résultats empiriques et les études d'ablation valident l'efficacité de notre contrôle explicite de la disposition pour les conditions multimodales par rapport aux contreparties implicites et autres méthodes existantes.
English
End-to-end human animation with rich multi-modal conditions, e.g., text, image and audio has achieved remarkable advancements in recent years. However, most existing methods could only animate a single subject and inject conditions in a global manner, ignoring scenarios that multiple concepts could appears in the same video with rich human-human interactions and human-object interactions. Such global assumption prevents precise and per-identity control of multiple concepts including humans and objects, therefore hinders applications. In this work, we discard the single-entity assumption and introduce a novel framework that enforces strong, region-specific binding of conditions from modalities to each identity's spatiotemporal footprint. Given reference images of multiple concepts, our method could automatically infer layout information by leveraging a mask predictor to match appearance cues between the denoised video and each reference appearance. Furthermore, we inject local audio condition into its corresponding region to ensure layout-aligned modality matching in a iterative manner. This design enables the high-quality generation of controllable multi-concept human-centric videos. Empirical results and ablation studies validate the effectiveness of our explicit layout control for multi-modal conditions compared to implicit counterparts and other existing methods.
PDF122June 12, 2025