FlashMotion: Generazione di Video Controllabili in Pochi Passaggi con Guida Traiettoriale

Abstract

I recenti progressi nella generazione video controllabile tramite traiettorie hanno raggiunto risultati notevoli. I metodi precedenti utilizzano principalmente architetture basate su adattatori per un controllo preciso del movimento lungo traiettorie predefinite. Tuttavia, tutti questi metodi si basano su un processo di denoising multi-step, che comporta una notevole ridondanza temporale e un sovraccarico computazionale. Sebbene le tecniche esistenti di distillazione video abbiano successo nel convertire generatori multi-step in versioni a pochi step, la loro applicazione diretta alla generazione video controllabile da traiettoria risulta in un evidente degrado sia della qualità video che della precisione della traiettoria. Per colmare questa lacuna, introduciamo FlashMotion, un nuovo framework di addestramento progettato per la generazione video controllabile da traiettoria a pochi step. Inizialmente addestriamo un adattatore di traiettoria su un generatore video multi-step per ottenere un controllo preciso della traiettoria. Successivamente, distilliamo il generatore in una versione a pochi step per accelerare la generazione video. Infine, perfezioniamo l'adattatore utilizzando una strategia ibrida che combina obiettivi di diffusione e adversarial, allineandolo con il generatore a pochi step per produrre video di alta qualità e precisione nella traiettoria. Per la valutazione, introduciamo FlashBench, un benchmark per la generazione video controllabile da traiettoria in sequenze lunghe che misura sia la qualità video che la precisione della traiettoria con un numero variabile di oggetti in primo piano. Esperimenti condotti su due architetture di adattatori dimostrano che FlashMotion supera sia i metodi esistenti di distillazione video che i precedenti modelli multi-step, sia in termini di qualità visiva che di coerenza della traiettoria.

English

Recent advances in trajectory-controllable video generation have achieved remarkable progress. Previous methods mainly use adapter-based architectures for precise motion control along predefined trajectories. However, all these methods rely on a multi-step denoising process, leading to substantial time redundancy and computational overhead. While existing video distillation methods successfully distill multi-step generators into few-step, directly applying these approaches to trajectory-controllable video generation results in noticeable degradation in both video quality and trajectory accuracy. To bridge this gap, we introduce FlashMotion, a novel training framework designed for few-step trajectory-controllable video generation. We first train a trajectory adapter on a multi-step video generator for precise trajectory control. Then, we distill the generator into a few-step version to accelerate video generation. Finally, we finetune the adapter using a hybrid strategy that combines diffusion and adversarial objectives, aligning it with the few-step generator to produce high-quality, trajectory-accurate videos. For evaluation, we introduce FlashBench, a benchmark for long-sequence trajectory-controllable video generation that measures both video quality and trajectory accuracy across varying numbers of foreground objects. Experiments on two adapter architectures show that FlashMotion surpasses existing video distillation methods and previous multi-step models in both visual quality and trajectory consistency.

FlashMotion: Generazione di Video Controllabili in Pochi Passaggi con Guida Traiettoriale

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Abstract

Support