FlashMotion: Создание управляемого видео за несколько шагов с помощью траекторного наведения

Аннотация

Последние достижения в области генерации видео с управляемой траекторией демонстрируют значительный прогресс. Предыдущие методы в основном используют адаптерные архитектуры для точного управления движением по заранее заданным траекториям. Однако все эти методы опираются на многошаговый процесс денойзинга, что приводит к значительным временным затратам и вычислительной нагрузке. В то время как существующие методы дистилляции видео успешно преобразуют многошаговые генераторы в малошаговые, прямое применение этих подходов к генерации видео с управляемой траекторией приводит к заметной деградации как качества видео, так и точности траектории. Для преодоления этого разрыва мы представляем FlashMotion — новую архитектуру обучения, разработанную для малошаговой генерации видео с управляемой траекторией. Сначала мы обучаем траекторный адаптер на многошаговом видео-генераторе для точного управления траекторией. Затем мы дистиллируем генератор в малошаговую версию для ускорения генерации видео. Наконец, мы дообучаем адаптер с использованием гибридной стратегии, сочетающей диффузионные и состязательные цели, согласовывая его с малошаговым генератором для получения высококачественных видео с точным соблюдением траектории. Для оценки мы представляем FlashBench — бенчмарк для генерации видео с управляемой траекторией в длинных последовательностях, который измеряет как качество видео, так и точность траектории при различном количестве объектов переднего плана. Эксперименты на двух адаптерных архитектурах показывают, что FlashMotion превосходит существующие методы дистилляции видео и предыдущие многошаговые модели как по визуальному качеству, так и по согласованности траектории.

English

Recent advances in trajectory-controllable video generation have achieved remarkable progress. Previous methods mainly use adapter-based architectures for precise motion control along predefined trajectories. However, all these methods rely on a multi-step denoising process, leading to substantial time redundancy and computational overhead. While existing video distillation methods successfully distill multi-step generators into few-step, directly applying these approaches to trajectory-controllable video generation results in noticeable degradation in both video quality and trajectory accuracy. To bridge this gap, we introduce FlashMotion, a novel training framework designed for few-step trajectory-controllable video generation. We first train a trajectory adapter on a multi-step video generator for precise trajectory control. Then, we distill the generator into a few-step version to accelerate video generation. Finally, we finetune the adapter using a hybrid strategy that combines diffusion and adversarial objectives, aligning it with the few-step generator to produce high-quality, trajectory-accurate videos. For evaluation, we introduce FlashBench, a benchmark for long-sequence trajectory-controllable video generation that measures both video quality and trajectory accuracy across varying numbers of foreground objects. Experiments on two adapter architectures show that FlashMotion surpasses existing video distillation methods and previous multi-step models in both visual quality and trajectory consistency.

FlashMotion: Создание управляемого видео за несколько шагов с помощью траекторного наведения

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Аннотация

Support