Busca Modal encontra Busca pela Média para Geração Rápida de Vídeos Longos

Resumo

A escalabilidade da geração de vídeos de segundos para minutos enfrenta um gargalo crítico: embora os dados de vídeos curtos sejam abundantes e de alta fidelidade, os dados coerentes de longa duração são escassos e limitados a domínios restritos. Para resolver isso, propomos um paradigma de treinamento onde a Busca de Modos encontra a Busca pela Média, desacoplando a fidelidade local da coerência de longo prazo com base numa representação unificada via um Transformer de Difusão Desacoplado. Nossa abordagem utiliza um cabeçalho global de Flow Matching treinado via aprendizado supervisionado em vídeos longos para capturar a estrutura narrativa, enquanto emprega simultaneamente um cabeçalho local de Distribution Matching que alinha janelas deslizantes a um professor congelado de vídeos curtos via uma divergência reverse-KL de busca de modos. Esta estratégia permite a síntese de vídeos em escala de minutos que aprende coerência e movimentos de longo alcance a partir de vídeos longos limitados via flow matching supervisionado, enquanto herda o realismo local ao alinhar cada segmento de janela deslizante do aluno a um professor congelado de vídeos curtos, resultando num gerador de vídeos longos rápido e de poucos passos. As avaliações mostram que nosso método efetivamente reduz a lacuna fidelidade-horizonte ao melhorar conjuntamente a nitidez local, o movimento e a consistência de longo alcance. Site do projeto: https://primecai.github.io/mmm/.

English

Scaling video generation from seconds to minutes faces a critical bottleneck: while short-video data is abundant and high-fidelity, coherent long-form data is scarce and limited to narrow domains. To address this, we propose a training paradigm where Mode Seeking meets Mean Seeking, decoupling local fidelity from long-term coherence based on a unified representation via a Decoupled Diffusion Transformer. Our approach utilizes a global Flow Matching head trained via supervised learning on long videos to capture narrative structure, while simultaneously employing a local Distribution Matching head that aligns sliding windows to a frozen short-video teacher via a mode-seeking reverse-KL divergence. This strategy enables the synthesis of minute-scale videos that learns long-range coherence and motions from limited long videos via supervised flow matching, while inheriting local realism by aligning every sliding-window segment of the student to a frozen short-video teacher, resulting in a few-step fast long video generator. Evaluations show that our method effectively closes the fidelity-horizon gap by jointly improving local sharpness, motion and long-range consistency. Project website: https://primecai.github.io/mmm/.

Busca Modal encontra Busca pela Média para Geração Rápida de Vídeos Longos

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Resumo

Support