ChatPaper.aiChatPaper

Время-двигаться: Управляемое движением генерация видео без обучения с помощью двойного часового шумоподавления

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

November 9, 2025
Авторы: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany
cs.AI

Аннотация

Генерация видео на основе диффузионных моделей позволяет создавать реалистичные видеоролики, однако существующие методы кондиционирования на основе изображений и текста не обеспечивают точного управления движением. Предыдущие подходы к синтезу с контролем движения обычно требовали дообучения конкретной модели, что вычислительно затратно и ограничительно. Мы представляем Time-to-Move (TTM) — бесплатную, готовую к использованию платформу для генерации видео с контролем движения и внешнего вида на основе моделей диффузии для преобразования изображения в видео (I2V). Ключевая идея нашего метода заключается в использовании грубых референсных анимаций, полученных с помощью удобных манипуляций, таких как перетаскивание фрагментов или репроекция на основе глубины. Вдохновленные применением SDEdit для редактирования изображений с использованием грубых layout-подсказок, мы рассматриваем crude-анимации как coarse-подсказки движения и адаптируем этот механизм для видео. Мы сохраняем внешний вид с помощью кондиционирования на изображение и вводим двойное шумоподавление по времени — регионно-зависимую стратегию, которая обеспечивает строгое соответствие в областях, заданных для движения, сохраняя гибкость в остальных зонах, балансируя между точностью следования пользовательскому замыслу и естественностью динамики. Эта легковесная модификация процесса сэмплинга не требует дополнительного обучения или вычислительных затрат при выполнении и совместима с любой базовой архитектурой. Многочисленные эксперименты на бенчмарках для движения объектов и камеры показывают, что TTM превосходит или соответствует существующим обученным базовым методам по реалистичности и контролю движения. Кроме того, TTM предоставляет уникальную возможность: точный контроль внешнего вида через пиксельное кондиционирование, выходя за пределы ограничений текстовых промптов. Видео примеры и код доступны на странице проекта: https://time-to-move.github.io/.
English
Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.
PDF532December 1, 2025