ChatPaper.aiChatPaper

Tijd-voor-Beweging: Trainingsvrije, bewegingsgestuurde videogeneratie via dual-clock ruimverwijdering

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

November 9, 2025
Auteurs: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany
cs.AI

Samenvatting

Diffusion-gebaseerde videogeneratie kan realistische video's creëren, maar bestaande conditionering op basis van afbeeldingen en tekst biedt geen nauwkeurige bewegingscontrole. Eerdere methoden voor beweging-gestuurde synthese vereisen doorgaans modelspecifieke fine-tuning, wat rekenkundig kostbaar en beperkend is. Wij introduceren Time-to-Move (TTM), een trainingsvrij, plug-and-play raamwerk voor beweging- en uiterlijk-gestuurde videogeneratie met image-to-video (I2V) diffusion-modellen. Onze belangrijkste inzicht is het gebruik van ruwe referentie-animaties verkregen via gebruiksvriendelijke manipulaties zoals knippen-en-slepen of op diepte gebaseerde reprojectie. Gemotiveerd door SDEdit's gebruik van grove lay-outaanwijzingen voor beeldbewerking, behandelen we de ruwe animaties als grove bewegingsaanwijzingen en passen we het mechanisme aan voor het videodomein. We behouden het uiterlijk met beeldconditionering en introduceren dual-clock denoising, een regio-afhankelijke strategie die sterke uitlijning afdwingt in beweging-gespecificeerde regio's terwijl elders flexibiliteit wordt toegestaan, waardoor trouw aan de gebruikersintentie wordt gebalanceerd met natuurlijke dynamiek. Deze lichtgewicht aanpassing van het samplingproces brengt geen extra trainings- of rekentijdkosten met zich mee en is compatibel met elke backbone. Uitgebreide experimenten op benchmarks voor object- en camerabeweging tonen aan dat TTM de realiteit en bewegingscontrole van bestaande op training gebaseerde basislijnen evenaart of overtreft. Daarnaast introduceert TTM een unieke mogelijkheid: nauwkeurige uiterlijk-controle via pixel-level conditionering, wat de grenzen van alleen-tekst prompting overstijgt. Bezoek onze projectpagina voor video-voorbeelden en code: https://time-to-move.github.io/.
English
Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.
PDF532December 1, 2025