ChatPaper.aiChatPaper

InterActHuman: Multikonzept-Menschliche Animation mit layoutausgerichteten Audio-Bedingungen

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

June 11, 2025
Autoren: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI

Zusammenfassung

End-to-End-Mensch-Animation mit umfangreichen multimodalen Bedingungen, wie Text, Bild und Audio, hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Die meisten bestehenden Methoden können jedoch nur ein einzelnes Subjekt animieren und Bedingungen auf globale Weise einfügen, wodurch Szenarien ignoriert werden, in denen mehrere Konzepte im selben Video mit komplexen Mensch-Mensch- und Mensch-Objekt-Interaktionen auftreten können. Diese globale Annahme verhindert eine präzise und identitätsspezifische Kontrolle mehrerer Konzepte, einschließlich Menschen und Objekten, und behindert somit Anwendungen. In dieser Arbeit verwerfen wir die Annahme einer einzelnen Entität und führen ein neuartiges Framework ein, das eine starke, regionsspezifische Bindung von Bedingungen aus Modalitäten an den raumzeitlichen Fußabdruck jeder Identität erzwingt. Bei gegebenen Referenzbildern mehrerer Konzepte kann unsere Methode Layout-Informationen automatisch ableiten, indem sie einen Maskenprädiktor nutzt, um Erscheinungsmerkmale zwischen dem entrauschten Video und jedem Referenzbild abzugleichen. Darüber hinaus fügen wir lokale Audio-Bedingungen in ihre entsprechenden Regionen ein, um eine layoutausgerichtete Modalitätsanpassung in iterativer Weise sicherzustellen. Dieser Entwurf ermöglicht die hochwertige Erzeugung kontrollierbarer, mehrkonzeptbezogener, menschenzentrierter Videos. Empirische Ergebnisse und Ablationsstudien bestätigen die Wirksamkeit unserer expliziten Layoutkontrolle für multimodale Bedingungen im Vergleich zu impliziten Ansätzen und anderen bestehenden Methoden.
English
End-to-end human animation with rich multi-modal conditions, e.g., text, image and audio has achieved remarkable advancements in recent years. However, most existing methods could only animate a single subject and inject conditions in a global manner, ignoring scenarios that multiple concepts could appears in the same video with rich human-human interactions and human-object interactions. Such global assumption prevents precise and per-identity control of multiple concepts including humans and objects, therefore hinders applications. In this work, we discard the single-entity assumption and introduce a novel framework that enforces strong, region-specific binding of conditions from modalities to each identity's spatiotemporal footprint. Given reference images of multiple concepts, our method could automatically infer layout information by leveraging a mask predictor to match appearance cues between the denoised video and each reference appearance. Furthermore, we inject local audio condition into its corresponding region to ensure layout-aligned modality matching in a iterative manner. This design enables the high-quality generation of controllable multi-concept human-centric videos. Empirical results and ablation studies validate the effectiveness of our explicit layout control for multi-modal conditions compared to implicit counterparts and other existing methods.
PDF122June 12, 2025