ChatPaper.aiChatPaper

Time-to-Move: Trainingsfreie bewegungsgesteuerte Videogenerierung durch Dual-Clock-Entrauschung

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

November 9, 2025
papers.authors: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany
cs.AI

papers.abstract

Diffusionsbasierte Videogenerierung kann realistische Videos erzeugen, doch die bestehende Konditionierung auf Bilder und Texte bietet keine präzise Bewegungskontrolle. Bisherige Methoden für bewegungsgesteuerte Synthese erfordern typischerweise modelspezifisches Fine-Tuning, was rechenintensiv und einschränkend ist. Wir stellen Time-to-Move (TTM) vor, ein trainingsfreies Plug-and-Play-Framework für bewegungs- und erscheinungsgesteuerte Videogenerierung mit Bild-zu-Video (I2V) Diffusionsmodellen. Unser zentraler Ansatz ist die Verwendung grober Referenzanimationen, die durch benutzerfreundliche Manipulationen wie Ausschneiden-und-Ziehen oder tiefenbasierte Reprojektion gewonnen werden. Inspiriert durch SDEdits Nutzung grober Layout-Hinweise zur Bildbearbeitung, behandeln wir die groben Animationen als unpräzise Bewegungsimpulse und übertragen den Mechanismus in den Videobereich. Wir bewahren das Erscheinungsbild durch Bildkonditionierung und führen dual-clock Denoising ein, eine regionsabhängige Strategie, die eine starke Ausrichtung in bewegungsdefinierten Bereichen erzwingt, während sie Flexibilität anderswo zulässt, um Treue zur Benutzerintention mit natürlicher Dynamik abzuwägen. Diese leichtgewichtige Modifikation des Sampling-Prozesses verursacht keine zusätzlichen Trainings- oder Laufzeitkosten und ist mit jedem Backbone kompatibel. Umfangreiche Experimente mit Benchmarks für Objekt- und Kamerabewegungen zeigen, dass TTM bestehende trainierte Baselines in Realismus und Bewegungskontrolle erreicht oder übertrifft. Darüber hinaus ermöglicht TTM eine einzigartige Fähigkeit: präzise Erscheinungskontrolle durch pixelgenaue Konditionierung, die die Grenzen rein textbasierter Steuerung überwindet. Besuchen Sie unsere Projektseite für Videobeispiele und Code: https://time-to-move.github.io/.
English
Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.
PDF532December 1, 2025