InterActHuman: Multi-Concept Menselijke Animatie met Lay-out-Uitgelijnde Audiocondities
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
June 11, 2025
Auteurs: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI
Samenvatting
End-to-end menselijke animatie met rijke multimodale voorwaarden, zoals tekst, afbeeldingen en audio, heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. De meeste bestaande methoden kunnen echter slechts één onderwerp animeren en voorwaarden op een globale manier injecteren, waarbij scenario's worden genegeerd waarin meerdere concepten in dezelfde video kunnen voorkomen met rijke mens-mens-interacties en mens-object-interacties. Deze globale aanname verhindert een precieze en per-identiteit controle van meerdere concepten, inclusief mensen en objecten, en belemmert daardoor toepassingen. In dit werk verwerpen we de aanname van een enkele entiteit en introduceren we een nieuw framework dat een sterke, regiospecifieke binding van voorwaarden van modaliteiten aan het spatiotemporele voetafdruk van elke identiteit afdwingt. Gegeven referentieafbeeldingen van meerdere concepten, kan onze methode automatisch lay-outinformatie afleiden door gebruik te maken van een maskervoorspeller om uiterlijke kenmerken tussen de ontruisde video en elk referentie-uiterlijk te matchen. Bovendien injecteren we een lokale audiovoorwaarde in het corresponderende gebied om lay-out-uitgelijnde modaliteitsmatching op een iteratieve manier te garanderen. Dit ontwerp maakt de hoogwaardige generatie van beheersbare multi-concept mensgerichte video's mogelijk. Empirische resultaten en ablatiestudies valideren de effectiviteit van onze expliciete lay-outcontrole voor multimodale voorwaarden in vergelijking met impliciete tegenhangers en andere bestaande methoden.
English
End-to-end human animation with rich multi-modal conditions, e.g., text,
image and audio has achieved remarkable advancements in recent years. However,
most existing methods could only animate a single subject and inject conditions
in a global manner, ignoring scenarios that multiple concepts could appears in
the same video with rich human-human interactions and human-object
interactions. Such global assumption prevents precise and per-identity control
of multiple concepts including humans and objects, therefore hinders
applications. In this work, we discard the single-entity assumption and
introduce a novel framework that enforces strong, region-specific binding of
conditions from modalities to each identity's spatiotemporal footprint. Given
reference images of multiple concepts, our method could automatically infer
layout information by leveraging a mask predictor to match appearance cues
between the denoised video and each reference appearance. Furthermore, we
inject local audio condition into its corresponding region to ensure
layout-aligned modality matching in a iterative manner. This design enables the
high-quality generation of controllable multi-concept human-centric videos.
Empirical results and ablation studies validate the effectiveness of our
explicit layout control for multi-modal conditions compared to implicit
counterparts and other existing methods.