Поиск моды встречается с поиском среднего для быстрого создания длинных видео
Mode Seeking meets Mean Seeking for Fast Long Video Generation
February 27, 2026
Авторы: Shengqu Cai, Weili Nie, Chao Liu, Julius Berner, Lvmin Zhang, Nanye Ma, Hansheng Chen, Maneesh Agrawala, Leonidas Guibas, Gordon Wetzstein, Arash Vahdat
cs.AI
Аннотация
Масштабирование генерации видео с секунд до минут сталкивается с критическим ограничением: хотя данные для коротких видео обильны и обладают высокой точностью, связные данные длительной формы скудны и ограничены узкими предметными областями. Для решения этой проблемы мы предлагаем парадигму обучения, в которой **Поиск Моды встречает Поиск Среднего**, разделяя локальную точность и долговременную связность на основе унифицированного представления с помощью Разделенного Трансформер-Диффузии. Наш подход использует глобальный модуль Сопоставления Потоков, обучаемый с учителем на длинных видео для захвата нарративной структуры, одновременно применяя локальный модуль Сопоставления Распределений, который выравнивает скользящие окна относительно замороженной модели-учителя для коротких видео с помощью расхождения обратного Кульбака-Лейблера, ориентированного на моду. Эта стратегия позволяет синтезировать видео минутного масштаба, которые изучают долгосрочную связность и движения из ограниченного количества длинных видео через контролируемое сопоставление потоков, одновременно наследуя локальный реализм путем выравнивания каждого сегмента скользящего окна ученика относительно замороженного учителя для коротких видео, что приводит к созданию быстрого генератора длинных видео за несколько шагов. Оценки показывают, что наш метод эффективно закрывает разрыв между точностью и горизонтом, совместно улучшая локальную резкость, движение и долгосрочную согласованность. Страница проекта: https://primecai.github.io/mmm/.
English
Scaling video generation from seconds to minutes faces a critical bottleneck: while short-video data is abundant and high-fidelity, coherent long-form data is scarce and limited to narrow domains. To address this, we propose a training paradigm where Mode Seeking meets Mean Seeking, decoupling local fidelity from long-term coherence based on a unified representation via a Decoupled Diffusion Transformer. Our approach utilizes a global Flow Matching head trained via supervised learning on long videos to capture narrative structure, while simultaneously employing a local Distribution Matching head that aligns sliding windows to a frozen short-video teacher via a mode-seeking reverse-KL divergence. This strategy enables the synthesis of minute-scale videos that learns long-range coherence and motions from limited long videos via supervised flow matching, while inheriting local realism by aligning every sliding-window segment of the student to a frozen short-video teacher, resulting in a few-step fast long video generator. Evaluations show that our method effectively closes the fidelity-horizon gap by jointly improving local sharpness, motion and long-range consistency. Project website: https://primecai.github.io/mmm/.