FlashMotion: Generación de Video Controlable en Pocos Pasos con Guía de Trayectoria

Resumen

Los recientes avances en la generación de vídeo controlable por trayectorias han logrado un progreso notable. Los métodos anteriores utilizan principalmente arquitecturas basadas en adaptadores para un control de movimiento preciso a lo largo de trayectorias predefinidas. Sin embargo, todos estos métodos dependen de un proceso de eliminación de ruido de múltiples pasos, lo que conlleva una redundancia temporal sustancial y una sobrecarga computacional. Si bien los métodos existentes de destilación de vídeo consiguen destilar generadores de múltiples pasos en versiones de pocos pasos, la aplicación directa de estos enfoques a la generación de vídeo controlable por trayectorias resulta en una degradación notable tanto en la calidad del vídeo como en la precisión de la trayectoria. Para salvar esta brecha, presentamos FlashMotion, un novedoso marco de entrenamiento diseñado para la generación de vídeo controlable por trayectorias en pocos pasos. Primero entrenamos un adaptador de trayectorias en un generador de vídeo de múltiples pasos para un control preciso de la trayectoria. Luego, destilamos el generador a una versión de pocos pasos para acelerar la generación de vídeo. Finalmente, ajustamos el adaptador utilizando una estrategia híbrida que combina objetivos de difusión y adversarios, alineándolo con el generador de pocos pasos para producir vídeos de alta calidad y precisión en la trayectoria. Para la evaluación, presentamos FlashBench, un punto de referencia para la generación de vídeo controlable por trayectorias en secuencias largas que mide tanto la calidad del vídeo como la precisión de la trayectoria con diferentes números de objetos en primer plano. Los experimentos en dos arquitecturas de adaptadores muestran que FlashMotion supera a los métodos existentes de destilación de vídeo y a los modelos anteriores de múltiples pasos, tanto en calidad visual como en consistencia de la trayectoria.

English

Recent advances in trajectory-controllable video generation have achieved remarkable progress. Previous methods mainly use adapter-based architectures for precise motion control along predefined trajectories. However, all these methods rely on a multi-step denoising process, leading to substantial time redundancy and computational overhead. While existing video distillation methods successfully distill multi-step generators into few-step, directly applying these approaches to trajectory-controllable video generation results in noticeable degradation in both video quality and trajectory accuracy. To bridge this gap, we introduce FlashMotion, a novel training framework designed for few-step trajectory-controllable video generation. We first train a trajectory adapter on a multi-step video generator for precise trajectory control. Then, we distill the generator into a few-step version to accelerate video generation. Finally, we finetune the adapter using a hybrid strategy that combines diffusion and adversarial objectives, aligning it with the few-step generator to produce high-quality, trajectory-accurate videos. For evaluation, we introduce FlashBench, a benchmark for long-sequence trajectory-controllable video generation that measures both video quality and trajectory accuracy across varying numbers of foreground objects. Experiments on two adapter architectures show that FlashMotion surpasses existing video distillation methods and previous multi-step models in both visual quality and trajectory consistency.

FlashMotion: Generación de Video Controlable en Pocos Pasos con Guía de Trayectoria

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Resumen

Support