Moduszoeken ontmoet gemiddeldezoeken voor snelle generatie van lange video's

Samenvatting

Het schalen van videogeneratie van seconden naar minuten stuit op een kritieke beperking: hoewel data voor korte video's overvloedig aanwezig is en van hoge kwaliteit, is coherente data voor lange video's schaars en beperkt tot specifieke domeinen. Om dit aan te pakken, stellen we een trainingsparadigma voor waarin Mode Seeking en Mean Seeking samenkomen, waarbij lokale nauwkeurigheid wordt losgekoppeld van langetermijncoherentie op basis van een uniforme representatie via een Decoupled Diffusion Transformer. Onze aanpak gebruikt een globale Flow Matching-head die via supervised learning op lange video's wordt getraind om de narratieve structuur vast te leggen, terwijl gelijktijdig een lokale Distribution Matching-head wordt ingezet die verschuivende vensters uitlijnt met een bevroren leraarmodel voor korte video's via een mode-seeking reverse-KL-divergentie. Deze strategie maakt de synthese van video's op minuutschaal mogelijk, waarbij langetermijncoherentie en bewegingen worden geleerd uit beperkte lange video's via supervised flow matching, terwijl lokale realisme wordt overgenomen door elk verschuivend venster van de student uit te lijnen met een bevroren leraarmodel voor korte video's, wat resulteert in een snelle generator voor lange video's met weinig stappen. Evaluaties tonen aan dat onze methode de kloof tussen kwaliteit en tijdsduur effectief verkleint door gezamenlijk de lokale scherpte, beweging en consistentie op lange termijn te verbeteren. Projectwebsite: https://primecai.github.io/mmm/.

English

Scaling video generation from seconds to minutes faces a critical bottleneck: while short-video data is abundant and high-fidelity, coherent long-form data is scarce and limited to narrow domains. To address this, we propose a training paradigm where Mode Seeking meets Mean Seeking, decoupling local fidelity from long-term coherence based on a unified representation via a Decoupled Diffusion Transformer. Our approach utilizes a global Flow Matching head trained via supervised learning on long videos to capture narrative structure, while simultaneously employing a local Distribution Matching head that aligns sliding windows to a frozen short-video teacher via a mode-seeking reverse-KL divergence. This strategy enables the synthesis of minute-scale videos that learns long-range coherence and motions from limited long videos via supervised flow matching, while inheriting local realism by aligning every sliding-window segment of the student to a frozen short-video teacher, resulting in a few-step fast long video generator. Evaluations show that our method effectively closes the fidelity-horizon gap by jointly improving local sharpness, motion and long-range consistency. Project website: https://primecai.github.io/mmm/.

Moduszoeken ontmoet gemiddeldezoeken voor snelle generatie van lange video's

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Samenvatting

Support