Recherche de mode et recherche de moyenne pour une génération rapide de vidéos longues
Mode Seeking meets Mean Seeking for Fast Long Video Generation
February 27, 2026
Auteurs: Shengqu Cai, Weili Nie, Chao Liu, Julius Berner, Lvmin Zhang, Nanye Ma, Hansheng Chen, Maneesh Agrawala, Leonidas Guibas, Gordon Wetzstein, Arash Vahdat
cs.AI
Résumé
La génération de vidéos à l'échelle, passant de quelques secondes à plusieurs minutes, se heurte à un goulot d'étranglement critique : si les données de vidéos courtes sont abondantes et de haute fidélité, les données longues et cohérentes sont rares et limitées à des domaines restreints. Pour y remédier, nous proposons un paradigme d'entraînement où la Recherche de Mode rencontre la Recherche de Moyenne, découplant la fidélité locale de la cohérence à long terme grâce à une représentation unifiée via un Transformeur à Diffusion Découplé. Notre approche utilise une tête d'Appariement de Flux globale, entraînée par apprentissage supervisé sur de longues vidéos pour capturer la structure narrative, tout en employant simultanément une tête d'Appariement de Distribution locale qui aligne des fenêtres glissantes sur un enseignant de vidéos courtes figé via une divergence inverse de Kullback-Leibler favorisant le mode. Cette stratégie permet la synthèse de vidéos à l'échelle de la minute qui apprend la cohérence et les mouvements à longue portée à partir d'un nombre limité de vidéos longues via l'appariement de flux supervisé, tout en héritant du réalisme local en alignant chaque segment de fenêtre glissante de l'élève sur un enseignant de vidéos courtes figé, aboutissant à un générateur de vidéos longues rapide en peu d'étapes. Les évaluations montrent que notre méthode réduit efficacement l'écart fidélité-horizon en améliorant conjointement la netteté locale, le mouvement et la cohérence à long terme. Site du projet : https://primecai.github.io/mmm/.
English
Scaling video generation from seconds to minutes faces a critical bottleneck: while short-video data is abundant and high-fidelity, coherent long-form data is scarce and limited to narrow domains. To address this, we propose a training paradigm where Mode Seeking meets Mean Seeking, decoupling local fidelity from long-term coherence based on a unified representation via a Decoupled Diffusion Transformer. Our approach utilizes a global Flow Matching head trained via supervised learning on long videos to capture narrative structure, while simultaneously employing a local Distribution Matching head that aligns sliding windows to a frozen short-video teacher via a mode-seeking reverse-KL divergence. This strategy enables the synthesis of minute-scale videos that learns long-range coherence and motions from limited long videos via supervised flow matching, while inheriting local realism by aligning every sliding-window segment of the student to a frozen short-video teacher, resulting in a few-step fast long video generator. Evaluations show that our method effectively closes the fidelity-horizon gap by jointly improving local sharpness, motion and long-range consistency. Project website: https://primecai.github.io/mmm/.