La Ricerca della Moda Incontra la Ricerca della Media per una Generazione Rapida di Video Lunghi
Mode Seeking meets Mean Seeking for Fast Long Video Generation
February 27, 2026
Autori: Shengqu Cai, Weili Nie, Chao Liu, Julius Berner, Lvmin Zhang, Nanye Ma, Hansheng Chen, Maneesh Agrawala, Leonidas Guibas, Gordon Wetzstein, Arash Vahdat
cs.AI
Abstract
Il passaggio dalla generazione di video di pochi secondi a quelli di diversi minuti incontra un collo di bottiglia critico: mentre i dati per video brevi sono abbondanti e ad alta fedeltà, i dati coerenti per video lunghi sono scarsi e limitati a domini ristretti. Per affrontare questo problema, proponiamo un paradigma di addestramento in cui la Ricerca della Moda incontra la Ricerca della Media, disaccoppiando la fedeltà locale dalla coerenza a lungo termine basandosi su una rappresentazione unificata tramite un Trasformatore di Diffusione Disaccoppiato. Il nostro approccio utilizza una testa globale di Flow Matching addestrata tramite apprendimento supervisionato su video lunghi per catturare la struttura narrativa, mentre impiega simultaneamente una testa locale di Distribution Matching che allinea finestre scorrevoli a un insegnante per video brevi congelato tramite una divergenza reverse-KL di tipo mode-seeking. Questa strategia consente la sintesi di video della durata di minuti che apprende coerenza e movimenti a lungo raggio da video lunghi limitati tramite il flow matching supervisionato, mentre eredita il realismo locale allineando ogni segmento a finestra scorrevole dello studente a un insegnante per video brevi congelato, dando vita a un generatore di video lunghi veloce che richiede pochi passi. Le valutazioni mostrano che il nostro metodo riduce efficacemente il divario fedeltà-orizzonte migliorando congiuntamente la nitidezza locale, il movimento e la coerenza a lungo raggio. Sito del progetto: https://primecai.github.io/mmm/.
English
Scaling video generation from seconds to minutes faces a critical bottleneck: while short-video data is abundant and high-fidelity, coherent long-form data is scarce and limited to narrow domains. To address this, we propose a training paradigm where Mode Seeking meets Mean Seeking, decoupling local fidelity from long-term coherence based on a unified representation via a Decoupled Diffusion Transformer. Our approach utilizes a global Flow Matching head trained via supervised learning on long videos to capture narrative structure, while simultaneously employing a local Distribution Matching head that aligns sliding windows to a frozen short-video teacher via a mode-seeking reverse-KL divergence. This strategy enables the synthesis of minute-scale videos that learns long-range coherence and motions from limited long videos via supervised flow matching, while inheriting local realism by aligning every sliding-window segment of the student to a frozen short-video teacher, resulting in a few-step fast long video generator. Evaluations show that our method effectively closes the fidelity-horizon gap by jointly improving local sharpness, motion and long-range consistency. Project website: https://primecai.github.io/mmm/.