InterActHuman: Multikonzept-Menschliche Animation mit layoutausgerichteten Audio-Bedingungen
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
June 11, 2025
Autoren: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI
Zusammenfassung
End-to-End-Mensch-Animation mit umfangreichen multimodalen Bedingungen, wie Text, Bild und Audio, hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Die meisten bestehenden Methoden können jedoch nur ein einzelnes Subjekt animieren und Bedingungen auf globale Weise einfügen, wodurch Szenarien ignoriert werden, in denen mehrere Konzepte im selben Video mit komplexen Mensch-Mensch- und Mensch-Objekt-Interaktionen auftreten können. Diese globale Annahme verhindert eine präzise und identitätsspezifische Kontrolle mehrerer Konzepte, einschließlich Menschen und Objekten, und behindert somit Anwendungen. In dieser Arbeit verwerfen wir die Annahme einer einzelnen Entität und führen ein neuartiges Framework ein, das eine starke, regionsspezifische Bindung von Bedingungen aus Modalitäten an den raumzeitlichen Fußabdruck jeder Identität erzwingt. Bei gegebenen Referenzbildern mehrerer Konzepte kann unsere Methode Layout-Informationen automatisch ableiten, indem sie einen Maskenprädiktor nutzt, um Erscheinungsmerkmale zwischen dem entrauschten Video und jedem Referenzbild abzugleichen. Darüber hinaus fügen wir lokale Audio-Bedingungen in ihre entsprechenden Regionen ein, um eine layoutausgerichtete Modalitätsanpassung in iterativer Weise sicherzustellen. Dieser Entwurf ermöglicht die hochwertige Erzeugung kontrollierbarer, mehrkonzeptbezogener, menschenzentrierter Videos. Empirische Ergebnisse und Ablationsstudien bestätigen die Wirksamkeit unserer expliziten Layoutkontrolle für multimodale Bedingungen im Vergleich zu impliziten Ansätzen und anderen bestehenden Methoden.
English
End-to-end human animation with rich multi-modal conditions, e.g., text,
image and audio has achieved remarkable advancements in recent years. However,
most existing methods could only animate a single subject and inject conditions
in a global manner, ignoring scenarios that multiple concepts could appears in
the same video with rich human-human interactions and human-object
interactions. Such global assumption prevents precise and per-identity control
of multiple concepts including humans and objects, therefore hinders
applications. In this work, we discard the single-entity assumption and
introduce a novel framework that enforces strong, region-specific binding of
conditions from modalities to each identity's spatiotemporal footprint. Given
reference images of multiple concepts, our method could automatically infer
layout information by leveraging a mask predictor to match appearance cues
between the denoised video and each reference appearance. Furthermore, we
inject local audio condition into its corresponding region to ensure
layout-aligned modality matching in a iterative manner. This design enables the
high-quality generation of controllable multi-concept human-centric videos.
Empirical results and ablation studies validate the effectiveness of our
explicit layout control for multi-modal conditions compared to implicit
counterparts and other existing methods.