Tiempo de Movimiento: Generación de Vídeo Controlada por Movimiento Sin Entrenamiento Mediante Desruido de Doble Reloj
Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
November 9, 2025
Autores: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany
cs.AI
Resumen
La generación de vídeos basada en difusión puede crear vídeos realistas, sin embargo, las técnicas de condicionamiento existentes basadas en imágenes y texto no ofrecen un control preciso del movimiento. Los métodos anteriores para la síntesis condicionada por movimiento suelen requerir un ajuste específico para cada modelo, lo que resulta computacionalmente costoso y restrictivo. Presentamos Time-to-Move (TTM), un marco de trabajo plug-and-play que no requiere entrenamiento, para la generación de vídeos controlada por movimiento y apariencia con modelos de difusión de imagen a vídeo (I2V). Nuestra idea clave es utilizar animaciones de referencia rudimentarias obtenidas mediante manipulaciones sencillas como cortar-y-arrastrar o reproyección basada en profundidad. Motivados por el uso de SDEdit de pistas de diseño básicas para la edición de imágenes, tratamos las animaciones rudimentarias como pistas de movimiento gruesas y adaptamos el mecanismo al dominio del vídeo. Preservamos la apariencia con condicionamiento por imagen e introducimos la eliminación de ruido de doble reloj, una estrategia dependiente de la región que impone una fuerte alineación en las áreas especificadas para el movimiento mientras permite flexibilidad en otras, equilibrando la fidelidad a la intención del usuario con la dinámica natural. Esta modificación ligera del proceso de muestreo no conlleva costes adicionales de entrenamiento o tiempo de ejecución y es compatible con cualquier modelo base. Experimentos exhaustivos en benchmarks de movimiento de objetos y de cámara muestran que TTM iguala o supera a las líneas base existentes que requieren entrenamiento, tanto en realismo como en control del movimiento. Más allá de esto, TTM introduce una capacidad única: el control preciso de la apariencia mediante condicionamiento a nivel de píxel, superando los límites de los prompts basados únicamente en texto. Visite nuestra página del proyecto para ver ejemplos de vídeo y el código: https://time-to-move.github.io/.
English
Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.