InterActHuman: 레이아웃 정렬 오디오 조건을 통한 다중 개념 인간 애니메이션
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
June 11, 2025
저자: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI
초록
텍스트, 이미지, 오디오와 같은 풍부한 다중 모달 조건을 포함한 종단 간 인간 애니메이션은 최근 몇 년 동안 눈부신 발전을 이루어 왔다. 그러나 대부분의 기존 방법들은 단일 주체만을 애니메이션화하고 조건을 전역적으로 주입하는 데 그쳐, 동일한 비디오 내에서 다중 개념이 등장하며 인간 간 상호작용 및 인간-객체 상호작용이 풍부하게 나타나는 시나리오를 간과해 왔다. 이러한 전역적 가정은 인간과 객체를 포함한 다중 개념에 대한 정밀하고 개별적인 제어를 방해하며, 이로 인해 응용 가능성이 제한된다. 본 연구에서는 단일 개체 가정을 버리고, 각 개체의 시공간적 흔적에 모달리티로부터의 조건을 강력하고 지역적으로 결합하는 새로운 프레임워크를 제안한다. 다중 개념의 참조 이미지가 주어졌을 때, 우리의 방법은 마스크 예측기를 활용하여 디노이즈된 비디오와 각 참조 외관 간의 외관 단서를 매칭함으로써 레이아웃 정보를 자동으로 추론한다. 더 나아가, 지역 오디오 조건을 해당 영역에 반복적으로 주입하여 레이아웃 정렬된 모달리티 매칭을 보장한다. 이러한 설계는 제어 가능한 다중 개념 중심의 인간 중심 비디오를 고품질로 생성할 수 있게 한다. 실험 결과와 어블레이션 연구는 암묵적 대안 및 기존 방법들과 비교하여 다중 모달 조건에 대한 명시적 레이아웃 제어의 효과를 검증한다.
English
End-to-end human animation with rich multi-modal conditions, e.g., text,
image and audio has achieved remarkable advancements in recent years. However,
most existing methods could only animate a single subject and inject conditions
in a global manner, ignoring scenarios that multiple concepts could appears in
the same video with rich human-human interactions and human-object
interactions. Such global assumption prevents precise and per-identity control
of multiple concepts including humans and objects, therefore hinders
applications. In this work, we discard the single-entity assumption and
introduce a novel framework that enforces strong, region-specific binding of
conditions from modalities to each identity's spatiotemporal footprint. Given
reference images of multiple concepts, our method could automatically infer
layout information by leveraging a mask predictor to match appearance cues
between the denoised video and each reference appearance. Furthermore, we
inject local audio condition into its corresponding region to ensure
layout-aligned modality matching in a iterative manner. This design enables the
high-quality generation of controllable multi-concept human-centric videos.
Empirical results and ablation studies validate the effectiveness of our
explicit layout control for multi-modal conditions compared to implicit
counterparts and other existing methods.