ChatPaper.aiChatPaper

완-무브: 잠재 궤적 안내를 통한 동작 제어 가능 비디오 생성

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

December 9, 2025
저자: Ruihang Chu, Yefei He, Zhekai Chen, Shiwei Zhang, Xiaogang Xu, Bin Xia, Dingdong Wang, Hongwei Yi, Xihui Liu, Hengshuang Zhao, Yu Liu, Yingya Zhang, Yujiu Yang
cs.AI

초록

우리는 비디오 생성 모델에 모션 제어 기능을 부여하는 간단하고 확장 가능한 프레임워크인 Wan-Move를 소개합니다. 기존 모션 제어 방법들은 일반적으로 제어 세분화가 거칠고 확장성이 제한되어 실제 활용에 부적합한 결과물을 생성하는 한계를 지니고 있습니다. 우리는 정밀하고 고품질의 모션 제어를 구현하여 이러한 격차를 해소하고자 합니다. 우리의 핵심 아이디어는 비디오 합성을 안내하기 위해 원본 조건 특징을 직접 모션 인식(motion-aware) 상태로 만드는 것입니다. 이를 위해 먼저 객체의 움직임을 조밀한 점 궤적(dense point trajectories)로 표현하여 장면에 대한 세분화된 제어를 가능하게 합니다. 다음으로 이러한 궤적들을 잠재 공간(latent space)에 투영한 후, 첫 번째 프레임의 특징을 각 궤적을 따라 전파하여 각 장면 요소가 어떻게 움직여야 하는지를 알려주는 정렬된 시공간 특징 맵(aligned spatiotemporal feature map)을 생성합니다. 이 특징 맵은 업데이트된 잠재 조건(latent condition) 역할을 하며, Wan-I2V-14B와 같은 기존 이미지-비디오(model-to-video) 모델에 아키텍처 변경 없이 모션 가이드로 자연스럽게 통합됩니다. 이는 별도의 보조 모션 인코더 필요성을 제거하고 기본 모델의 미세 조정(fine-tuning)을 용이하게 하여 확장성을 높입니다. 규모 확장 훈련(scaled training)을 통해 Wan-Move는 생성하는 5초 길이의 480p 비디오의 모션 제어 능력이 사용자 연구 결과에 따르면 Kling 1.5 Pro의 상용 Motion Brush 기능에 필적하는 수준입니다. 포괄적인 평가를 지원하기 위해 우리는 다양한 콘텐츠 범주와 혼합 검증(Hybrid-verified) 주석을 특징으로 하는 엄격하게 구성된 벤치마크 MoveBench를 추가로 설계했습니다. MoveBench는 더 큰 데이터량, 더 긴 비디오 지속 시간, 그리고 고품질의 모션 주석으로 차별화됩니다. MoveBench와 공개 데이터셋을 이용한 폭넓은 실험을 통해 Wan-Move의 뛰어난 모션 품질이 일관되게 입증되었습니다. 코드, 모델 및 벤치마크 데이터는 공개될 예정입니다.
English
We present Wan-Move, a simple and scalable framework that brings motion control to video generative models. Existing motion-controllable methods typically suffer from coarse control granularity and limited scalability, leaving their outputs insufficient for practical use. We narrow this gap by achieving precise and high-quality motion control. Our core idea is to directly make the original condition features motion-aware for guiding video synthesis. To this end, we first represent object motions with dense point trajectories, allowing fine-grained control over the scene. We then project these trajectories into latent space and propagate the first frame's features along each trajectory, producing an aligned spatiotemporal feature map that tells how each scene element should move. This feature map serves as the updated latent condition, which is naturally integrated into the off-the-shelf image-to-video model, e.g., Wan-I2V-14B, as motion guidance without any architecture change. It removes the need for auxiliary motion encoders and makes fine-tuning base models easily scalable. Through scaled training, Wan-Move generates 5-second, 480p videos whose motion controllability rivals Kling 1.5 Pro's commercial Motion Brush, as indicated by user studies. To support comprehensive evaluation, we further design MoveBench, a rigorously curated benchmark featuring diverse content categories and hybrid-verified annotations. It is distinguished by larger data volume, longer video durations, and high-quality motion annotations. Extensive experiments on MoveBench and the public dataset consistently show Wan-Move's superior motion quality. Code, models, and benchmark data are made publicly available.
PDF932December 11, 2025