ChatPaper.aiChatPaper

Time-to-Move: Generazione di Video Controllata dal Movimento Senza Addestramento tramite Denoising a Doppio Orologio

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

November 9, 2025
Autori: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany
cs.AI

Abstract

La generazione di video basata su modelli di diffusione può produrre video realistici, tuttavia i condizionamenti basati su immagini e testo esistenti non consentono un controllo preciso del movimento. I metodi precedenti per la sintesi condizionata al movimento richiedono tipicamente fine-tuning specifico per il modello, operazione computazionalmente costosa e limitante. Introduciamo Time-to-Move (TTM), un framework plug-and-play, che non richiede training, per la generazione di video controllata da movimento e aspetto con modelli di diffusione image-to-video (I2V). La nostra intuizione chiave è utilizzare animazioni di riferimento approssimate ottenute attraverso manipolazioni user-friendly come il taglia-e-trasporta o la riproiezione basata sulla profondità. Ispirandoci all'uso di SDEdit per suggerimenti di layout approssimati nell'editing di immagini, trattiamo le animazioni grezze come indicazioni di movimento approssimative e adattiamo il meccanismo al dominio video. Preserviamo l'aspetto con il condizionamento dell'immagine e introduciamo il denoising a doppio orologio (dual-clock denoising), una strategia dipendente dalla regione che impone un forte allineamento nelle regioni specificate per il movimento, consentendo flessibilità altrove, bilanciando fedeltà all'intento dell'utente con dinamiche naturali. Questa modifica leggera del processo di campionamento non comporta costi aggiuntivi di training o runtime ed è compatibile con qualsiasi architettura di base. Esperimenti estesi su benchmark di movimento di oggetti e telecamera dimostrano che TTM eguaglia o supera le baseline esistenti basate su training in realismo e controllo del movimento. Oltre a ciò, TTM introduce una capacità unica: il controllo preciso dell'aspetto attraverso il condizionamento a livello di pixel, superando i limiti dei prompt testuali. Visita la nostra pagina del progetto per esempi video e codice: https://time-to-move.github.io/.
English
Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.
PDF532December 1, 2025