움직임으로 제어하는 비디오 생성: 듀얼-클락 디노이징을 활용한 학습 없는 접근법
Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
November 9, 2025
저자: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany
cs.AI
초록
확산 기반 비디오 생성은 사실적인 비디오를 생성할 수 있으나, 기존의 이미지 및 텍스트 기반 조건화는 정밀한 모션 제어를 제공하지 못합니다. 모션 조건화 합성을 위한 기존 방법은 일반적으로 모델별 미세 조정을 필요로 하며, 이는 계산 비용이 많이 들고 제한적입니다. 본 논문에서는 이미지-투-비디오(I2V) 확산 모델을 이용한 모션 및 외관 제어 비디오 생성을 위한 추가 학습이 필요 없으며 즉시 사용 가능한 프레임워크인 Time-to-Move(TTM)를 소개합니다. 우리의 핵심 통찰은 잘라내기-끌기 또는 깊이 기반 재투영과 같은 사용자 친화적 조작을 통해 얻은 정제되지 않은 참조 애니메이션을 활용하는 것입니다. SDEdit가 이미지 편집을 위해 대략적인 레이아웃 단서를 사용하는 방식에 착안하여, 우리는 정제되지 않은 애니메이션을 대략적인 모션 단서로 간주하고 해당 메커니즘을 비디오 영역에 적용합니다. 이미지 조건화를 통해 외관을 보존하고, 이중 클럭 디노이징을 도입합니다. 이는 지역에 따라 다른 전략을 적용하여 모션이 지정된 영역에서는 강력한 정렬을 강제하되 다른 영역에서는 유연성을 허용함으로써 사용자 의도에 대한 충실도와 자연스러운 역학 사이의 균형을 맞춥니다. 샘플링 과정의 이러한 경량 수정은 추가적인 학습 또는 실행 시간 비용을 발생시키지 않으며 어떤 백본 모델과도 호환됩니다. 객체 및 카메라 모션 벤치마크에 대한 광범위한 실험을 통해 TTM이 사실성과 모션 제어 측면에서 기존의 학습 기반 기준선을 능가하거나 동등한 성능을 보임을 입증합니다. 이를 넘어 TTM은 픽셀 수준 조건화를 통한 정밀한 외관 제어라는 독특한 능력을 도입하여 텍스트만으로 하는 프롬프팅의 한계를 넘어섭니다. 비디오 예시 및 코드는 프로젝트 페이지(https://time-to-move.github.io/)를 참조하십시오.
English
Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.