InterActHuman: レイアウト整合型音声条件に基づくマルチコンセプト人間アニメーション
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
June 11, 2025
著者: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI
要旨
エンドツーエンドの人間アニメーションは、テキスト、画像、音声などの豊富なマルチモーダル条件を伴い、近年目覚ましい進展を遂げています。しかし、既存の手法の多くは単一の主体をアニメーション化し、条件をグローバルに注入するのみで、同じビデオ内に複数の概念が存在し、人間同士の相互作用や人間と物体の相互作用が豊富に現れるシナリオを無視しています。このようなグローバルな仮定は、人間や物体を含む複数の概念に対する精密かつ個別の制御を妨げ、応用を阻んでいます。本研究では、単一エンティティの仮定を捨て、各アイデンティティの時空間的フットプリントにモダリティからの条件を強く、領域特異的に結合する新たなフレームワークを導入します。複数の概念の参照画像が与えられた場合、本手法はマスク予測器を活用して、ノイズ除去されたビデオと各参照外観との間の外観手がかりを照合し、レイアウト情報を自動的に推論します。さらに、対応する領域にローカルな音声条件を反復的に注入し、レイアウトに沿ったモダリティマッチングを確保します。この設計により、制御可能なマルチコンセプトの人間中心ビデオの高品質な生成が可能となります。実験結果とアブレーションスタディは、暗黙的な手法や他の既存手法と比較して、マルチモーダル条件に対する明示的なレイアウト制御の有効性を検証しています。
English
End-to-end human animation with rich multi-modal conditions, e.g., text,
image and audio has achieved remarkable advancements in recent years. However,
most existing methods could only animate a single subject and inject conditions
in a global manner, ignoring scenarios that multiple concepts could appears in
the same video with rich human-human interactions and human-object
interactions. Such global assumption prevents precise and per-identity control
of multiple concepts including humans and objects, therefore hinders
applications. In this work, we discard the single-entity assumption and
introduce a novel framework that enforces strong, region-specific binding of
conditions from modalities to each identity's spatiotemporal footprint. Given
reference images of multiple concepts, our method could automatically infer
layout information by leveraging a mask predictor to match appearance cues
between the denoised video and each reference appearance. Furthermore, we
inject local audio condition into its corresponding region to ensure
layout-aligned modality matching in a iterative manner. This design enables the
high-quality generation of controllable multi-concept human-centric videos.
Empirical results and ablation studies validate the effectiveness of our
explicit layout control for multi-modal conditions compared to implicit
counterparts and other existing methods.