ChatPaper.aiChatPaper

타겟 인식 비디오 확산 모델

Target-Aware Video Diffusion Models

March 24, 2025
저자: Taeksoo Kim, Hanbyul Joo
cs.AI

초록

우리는 입력 이미지에서 특정 대상과 상호작용하며 원하는 동작을 수행하는 배우의 비디오를 생성하는 타겟 인식 비디오 확산 모델을 제안합니다. 타겟은 세그멘테이션 마스크로 정의되며, 원하는 동작은 텍스트 프롬프트로 설명됩니다. 기존의 제어 가능한 이미지-투-비디오 확산 모델들이 배우의 움직임을 타겟으로 유도하기 위해 밀집된 구조적 또는 모션 단서에 의존하는 것과 달리, 우리의 타겟 인식 모델은 타겟을 표시하기 위해 단순한 마스크만을 요구하며, 사전 훈련된 모델의 일반화 능력을 활용하여 그럴듯한 동작을 생성합니다. 이는 정확한 동작 지침을 제공하기 어려운 인간-객체 상호작용(HOI) 시나리오에서 특히 효과적이며, 로보틱스와 같은 응용 분야에서 고수준의 동작 계획을 위해 비디오 확산 모델을 사용할 수 있게 합니다. 우리는 타겟 인식 모델을 기본 모델을 확장하여 타겟 마스크를 추가 입력으로 통합함으로써 구축합니다. 타겟 인식을 강화하기 위해, 텍스트 프롬프트 내에서 타겟의 공간 정보를 인코딩하는 특수 토큰을 도입합니다. 그런 다음, 이 토큰과 관련된 크로스-어텐션 맵이 입력 타겟 마스크와 정렬되도록 하는 새로운 크로스-어텐션 손실을 사용하여 우리가 정제한 데이터셋으로 모델을 미세 조정합니다. 성능을 더욱 개선하기 위해, 이 손실을 의미론적으로 가장 관련성이 높은 트랜스포머 블록과 어텐션 영역에 선택적으로 적용합니다. 실험 결과는 우리의 타겟 인식 모델이 배우가 지정된 타겟과 정확하게 상호작용하는 비디오를 생성하는 데 있어 기존 솔루션들을 능가함을 보여줍니다. 또한, 비디오 콘텐츠 생성과 제로샷 3D HOI 모션 합성이라는 두 가지 하위 응용 분야에서의 효용성을 추가로 입증합니다.
English
We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor's movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target's spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.

Summary

AI-Generated Summary

PDF52April 3, 2025