ChatPaper.aiChatPaper

Time-to-Move : Génération vidéo contrôlée par le mouvement sans entraînement via un débruitage à double horloge

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

November 9, 2025
papers.authors: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany
cs.AI

papers.abstract

La génération de vidéos par diffusion permet de créer des séquences réalistes, mais les conditionnements existants basés sur l'image et le texte n'offrent pas un contrôle précis du mouvement. Les méthodes antérieures pour la synthèse conditionnée par le mouvement nécessitent généralement un ajustement spécifique au modèle, ce qui est coûteux en calculs et restrictif. Nous présentons Time-to-Move (TTM), un cadre plug-and-play, sans apprentissage supplémentaire, pour la génération de vidéos contrôlée par le mouvement et l'apparence avec des modèles de diffusion image-à-vidéo (I2V). Notre idée clé est d'utiliser des animations de référence approximatives obtenues via des manipulations conviviales comme le découpage-glissement ou la reprojection basée sur la profondeur. Motivés par l'utilisation de repères de mise en page grossiers par SDEdit pour la retouche d'image, nous traitons les animations brutes comme des indices de mouvement approximatifs et adaptons le mécanisme au domaine vidéo. Nous préservons l'apparence par conditionnement d'image et introduisons le bruitage à double horloge, une stratégie dépendante de la région qui impose un alignement fort dans les zones spécifiées pour le mouvement tout en permettant une flexibilité ailleurs, équilibrant la fidélité à l'intention de l'utilisateur avec une dynamique naturelle. Cette modification légère du processus d'échantillonnage n'entraîne aucun coût supplémentaire d'apprentissage ou d'exécution et est compatible avec n'importe quelle architecture de base. Des expériences approfondies sur des benchmarks de mouvement d'objet et de caméra montrent que TTM égale ou dépasse les méthodes de référence existantes nécessitant un apprentissage en termes de réalisme et de contrôle du mouvement. Au-delà, TTM introduit une capacité unique : un contrôle précis de l'apparence via un conditionnement au niveau pixel, dépassant les limites de l'invite textuelle seule. Visitez notre page projet pour des exemples vidéo et le code : https://time-to-move.github.io/.
English
Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.
PDF532December 1, 2025