La Búsqueda de Modas se Encuentra con la Búsqueda de Medias para la Generación Rápida de Videos Largos

Resumen

La escalabilidad de la generación de vídeo de segundos a minutos enfrenta un cuello de botella crítico: mientras que los datos de vídeos cortos son abundantes y de alta fidelidad, los datos coherentes de formato largo son escasos y se limitan a dominios específicos. Para abordar esto, proponemos un paradigma de entrenamiento donde la Búsqueda de Modas se encuentra con la Búsqueda de Medias, desacoplando la fidelidad local de la coherencia a largo plazo mediante una representación unificada a través de un Transformer de Difusión Desacoplado. Nuestro enfoque utiliza una cabeza global de Emparejamiento de Flujos entrenada mediante aprendizaje supervisado en vídeos largos para capturar la estructura narrativa, mientras emplea simultáneamente una cabeza local de Emparejamiento de Distribución que alinea ventanas deslizantes con un modelo profesor de vídeos cortos congelado mediante una divergencia inversa de Kullback-Leibler con búsqueda de modas. Esta estrategia permite sintetizar vídeos a escala de minutos que aprenden coherencia y movimientos de largo alcance a partir de vídeos largos limitados mediante emparejamiento de flujos supervisado, mientras heredan realismo local al alinear cada segmento de ventana deslizante del estudiante con un modelo profesor de vídeos cortos congelado, resultando en un generador rápido de vídeos largos en pocos pasos. Las evaluaciones muestran que nuestro método cierra efectivamente la brecha fidelidad-horizonte mejorando conjuntamente la nitidez local, el movimiento y la consistencia de largo alcance. Sitio del proyecto: https://primecai.github.io/mmm/.

English

Scaling video generation from seconds to minutes faces a critical bottleneck: while short-video data is abundant and high-fidelity, coherent long-form data is scarce and limited to narrow domains. To address this, we propose a training paradigm where Mode Seeking meets Mean Seeking, decoupling local fidelity from long-term coherence based on a unified representation via a Decoupled Diffusion Transformer. Our approach utilizes a global Flow Matching head trained via supervised learning on long videos to capture narrative structure, while simultaneously employing a local Distribution Matching head that aligns sliding windows to a frozen short-video teacher via a mode-seeking reverse-KL divergence. This strategy enables the synthesis of minute-scale videos that learns long-range coherence and motions from limited long videos via supervised flow matching, while inheriting local realism by aligning every sliding-window segment of the student to a frozen short-video teacher, resulting in a few-step fast long video generator. Evaluations show that our method effectively closes the fidelity-horizon gap by jointly improving local sharpness, motion and long-range consistency. Project website: https://primecai.github.io/mmm/.

La Búsqueda de Modas se Encuentra con la Búsqueda de Medias para la Generación Rápida de Videos Largos

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Resumen

Support