ChatPaper.aiChatPaper

InterActHuman: Multi-Concept Menselijke Animatie met Lay-out-Uitgelijnde Audiocondities

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

June 11, 2025
Auteurs: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI

Samenvatting

End-to-end menselijke animatie met rijke multimodale voorwaarden, zoals tekst, afbeeldingen en audio, heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. De meeste bestaande methoden kunnen echter slechts één onderwerp animeren en voorwaarden op een globale manier injecteren, waarbij scenario's worden genegeerd waarin meerdere concepten in dezelfde video kunnen voorkomen met rijke mens-mens-interacties en mens-object-interacties. Deze globale aanname verhindert een precieze en per-identiteit controle van meerdere concepten, inclusief mensen en objecten, en belemmert daardoor toepassingen. In dit werk verwerpen we de aanname van een enkele entiteit en introduceren we een nieuw framework dat een sterke, regiospecifieke binding van voorwaarden van modaliteiten aan het spatiotemporele voetafdruk van elke identiteit afdwingt. Gegeven referentieafbeeldingen van meerdere concepten, kan onze methode automatisch lay-outinformatie afleiden door gebruik te maken van een maskervoorspeller om uiterlijke kenmerken tussen de ontruisde video en elk referentie-uiterlijk te matchen. Bovendien injecteren we een lokale audiovoorwaarde in het corresponderende gebied om lay-out-uitgelijnde modaliteitsmatching op een iteratieve manier te garanderen. Dit ontwerp maakt de hoogwaardige generatie van beheersbare multi-concept mensgerichte video's mogelijk. Empirische resultaten en ablatiestudies valideren de effectiviteit van onze expliciete lay-outcontrole voor multimodale voorwaarden in vergelijking met impliciete tegenhangers en andere bestaande methoden.
English
End-to-end human animation with rich multi-modal conditions, e.g., text, image and audio has achieved remarkable advancements in recent years. However, most existing methods could only animate a single subject and inject conditions in a global manner, ignoring scenarios that multiple concepts could appears in the same video with rich human-human interactions and human-object interactions. Such global assumption prevents precise and per-identity control of multiple concepts including humans and objects, therefore hinders applications. In this work, we discard the single-entity assumption and introduce a novel framework that enforces strong, region-specific binding of conditions from modalities to each identity's spatiotemporal footprint. Given reference images of multiple concepts, our method could automatically infer layout information by leveraging a mask predictor to match appearance cues between the denoised video and each reference appearance. Furthermore, we inject local audio condition into its corresponding region to ensure layout-aligned modality matching in a iterative manner. This design enables the high-quality generation of controllable multi-concept human-centric videos. Empirical results and ablation studies validate the effectiveness of our explicit layout control for multi-modal conditions compared to implicit counterparts and other existing methods.
PDF132June 12, 2025