Tempo-de-Movimento: Geração de Vídeo Controlada por Movimento sem Treinamento via Desruídos de Duplo-Relógio
Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
November 9, 2025
Autores: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany
cs.AI
Resumo
A geração de vídeos baseada em difusão pode criar vídeos realistas, no entanto, a condicionamento existente baseado em imagem e texto não oferece um controle preciso do movimento. Métodos anteriores para síntese condicionada por movimento normalmente exigem *fine-tuning* específico do modelo, o que é computacionalmente dispendioso e restritivo. Apresentamos o **Time-to-Move (TTM)**, uma estrutura *plug-and-play* e sem necessidade de treinamento para geração de vídeo controlada por movimento e aparência com modelos de difusão de imagem para vídeo (I2V). Nossa principal perceção é a utilização de animações de referência rudimentares obtidas através de manipulações de fácil utilização, como *cut-and-drag* ou reprojeção baseada em profundidade. Motivados pelo uso de pistas de layout grosseiras no SDEdit para edição de imagem, tratamos as animações rudimentares como pistas de movimento grosseiras e adaptamos o mecanismo para o domínio do vídeo. Preservamos a aparência com condicionamento por imagem e introduzimos a **desagregação de duplo relógio** (*dual-clock denoising*), uma estratégia dependente da região que impõe um forte alinhamento nas regiões especificadas para movimento, permitindo flexibilidade noutras áreas, equilibrando a fidelidade à intenção do utilizador com a dinâmica natural. Esta modificação leve do processo de amostragem não incorre em custos adicionais de treinamento ou tempo de execução e é compatível com qualquer modelo base (*backbone*). Experiências extensivas em *benchmarks* de movimento de objetos e de câmara mostram que o TTM iguala ou supera as linhas de base existentes baseadas em treinamento em realismo e controlo de movimento. Para além disso, o TTM introduz uma capacidade única: controlo preciso da aparência através de condicionamento a nível de píxel, superando os limites da solicitação apenas por texto. Visite a nossa página do projeto para ver exemplos de vídeo e código: https://time-to-move.github.io/.
English
Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.