InterActHuman: Animazione Umana Multi-Concetto con Condizioni Audio Allineate al Layout
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
June 11, 2025
Autori: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI
Abstract
L'animazione umana end-to-end con condizioni multimodali ricche, come testo, immagini e audio, ha raggiunto progressi significativi negli ultimi anni. Tuttavia, la maggior parte dei metodi esistenti è in grado di animare solo un singolo soggetto e di iniettare le condizioni in modo globale, ignorando scenari in cui più concetti possono apparire nello stesso video con interazioni umano-umano e umano-oggetto ricche. Tale presupposto globale impedisce un controllo preciso e per-identità di più concetti, inclusi esseri umani e oggetti, ostacolando così le applicazioni. In questo lavoro, abbandoniamo l'assunzione di singola entità e introduciamo un nuovo framework che impone un forte legame regionale delle condizioni provenienti dalle modalità all'impronta spazio-temporale di ciascuna identità. Date immagini di riferimento di più concetti, il nostro metodo è in grado di inferire automaticamente le informazioni di layout sfruttando un predittore di maschere per abbinare gli indizi di aspetto tra il video denoisato e ciascun aspetto di riferimento. Inoltre, iniettiamo la condizione audio locale nella sua regione corrispondente per garantire un allineamento del layout con la modalità corrispondente in modo iterativo. Questo design consente la generazione di alta qualità di video centrati sull'uomo con più concetti controllabili. I risultati empirici e gli studi di ablazione convalidano l'efficacia del nostro controllo esplicito del layout per condizioni multimodali rispetto alle controparti implicite e ad altri metodi esistenti.
English
End-to-end human animation with rich multi-modal conditions, e.g., text,
image and audio has achieved remarkable advancements in recent years. However,
most existing methods could only animate a single subject and inject conditions
in a global manner, ignoring scenarios that multiple concepts could appears in
the same video with rich human-human interactions and human-object
interactions. Such global assumption prevents precise and per-identity control
of multiple concepts including humans and objects, therefore hinders
applications. In this work, we discard the single-entity assumption and
introduce a novel framework that enforces strong, region-specific binding of
conditions from modalities to each identity's spatiotemporal footprint. Given
reference images of multiple concepts, our method could automatically infer
layout information by leveraging a mask predictor to match appearance cues
between the denoised video and each reference appearance. Furthermore, we
inject local audio condition into its corresponding region to ensure
layout-aligned modality matching in a iterative manner. This design enables the
high-quality generation of controllable multi-concept human-centric videos.
Empirical results and ablation studies validate the effectiveness of our
explicit layout control for multi-modal conditions compared to implicit
counterparts and other existing methods.