Modus-Suche trifft Mittelwert-Suche für schnelle Erzeugung langer Videos

Zusammenfassung

Die Skalierung der Videogenerierung von Sekunden auf Minuten stößt auf ein entscheidendes Hindernis: Während Daten für kurze Videos reichlich vorhanden und hochwertig sind, sind kohärente Langform-Daten knapp und auf enge Domänen beschränkt. Um dies zu lösen, schlagen wir ein Trainingsparadigma vor, bei dem Mode Seeking auf Mean Seeking trifft, um lokale Detailtreue von langfristiger Kohärenz auf Basis einer einheitlichen Repräsentation mittels eines Decoupled Diffusion Transformers zu entkoppeln. Unser Ansatz nutzt einen globalen Flow-Matching-Kopf, der durch überwachtes Lernen an langen Videos trainiert wird, um die narrative Struktur zu erfassen, während gleichzeitig ein lokaler Distribution-Matching-Kopf eingesetzt wird, der gleitende Fenster über eine modus-suchende reverse-KL-Divergenz an einen eingefrorenen Kurzvideo-Lehrer anpasst. Diese Strategie ermöglicht die Synthese von minutenlangen Videos, die langreichweitige Kohärenz und Bewegungen aus begrenzten Langvideos durch überwachtes Flow Matching erlernen, während sie lokale Realitätstreue erbt, indem jedes gleitende Fenstersegment des Schülers an einen eingefrorenen Kurzvideo-Lehrer angeglichen wird. Das Ergebnis ist ein schneller Langvideo-Generator mit wenigen Schritten. Evaluationen zeigen, dass unsere Methode die Fidelity-Horizon-Lücke effektiv schließt, indem sie gleichzeitig lokale Schärfe, Bewegung und langreichweitige Konsistenz verbessert. Projektwebsite: https://primecai.github.io/mmm/.

English

Scaling video generation from seconds to minutes faces a critical bottleneck: while short-video data is abundant and high-fidelity, coherent long-form data is scarce and limited to narrow domains. To address this, we propose a training paradigm where Mode Seeking meets Mean Seeking, decoupling local fidelity from long-term coherence based on a unified representation via a Decoupled Diffusion Transformer. Our approach utilizes a global Flow Matching head trained via supervised learning on long videos to capture narrative structure, while simultaneously employing a local Distribution Matching head that aligns sliding windows to a frozen short-video teacher via a mode-seeking reverse-KL divergence. This strategy enables the synthesis of minute-scale videos that learns long-range coherence and motions from limited long videos via supervised flow matching, while inheriting local realism by aligning every sliding-window segment of the student to a frozen short-video teacher, resulting in a few-step fast long video generator. Evaluations show that our method effectively closes the fidelity-horizon gap by jointly improving local sharpness, motion and long-range consistency. Project website: https://primecai.github.io/mmm/.

Modus-Suche trifft Mittelwert-Suche für schnelle Erzeugung langer Videos

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Zusammenfassung

Support