FlowLong: Geração de Vídeos Longos no Tempo de Inferência via Matching de Tweedie com Restrição de Variedade

Resumo

Estender o horizonte de geração de modelos de difusão de vídeo para sequências longas continua sendo um desafio importante e de longa data. As abordagens existentes sem treinamento se dividem em duas categorias: extensões de modelos bidirecionais, que são fortemente acopladas a arquiteturas específicas e sofrem degradação de qualidade em horizontes longos, e modelos autorregressivos, que acumulam erros de desvio devido ao viés de exposição e tendem a produzir padrões de movimento repetitivos. Para lidar com essas questões, propomos uma abordagem nova, porém simples, para o tempo de inferência na geração de vídeos longos, que é independente de arquitetura e não requer treinamento adicional. Nosso método gera vídeos longos por meio de janelas deslizantes sobrepostas, onde amostras limpas previstas de janelas adjacentes são mescladas via correspondência de Tweedie para impor tanto a restrição de variedade quanto a consistência temporal nas regiões de sobreposição. A amostragem estocástica de fase inicial então sincroniza as trajetórias de cada janela injetando ruído fresco após cada correção de correspondência de Tweedie na fase de alto ruído, antes de transicionar para a amostragem ODE determinística para preservar a fidelidade visual refinada. Aplicado a vários modelos de geração de vídeo, nosso método gera vídeos várias vezes mais longos que o comprimento nativo da janela, superando tanto as linhas de base sem treinamento quanto as autorregressivas em consistência temporal e qualidade visual, e se estende ainda à geração conjunta áudio-vídeo e texto para 3DGS sem qualquer ajuste fino.

English

Extending the generation horizon of video diffusion models to long sequences remains a long-standing and important challenge. Existing training-free approaches fall into two categories: extensions of bidirectional models, which are tightly coupled to specific architectures and suffer from quality degradation over long horizons, and autoregressive models, which accumulate drift errors due to exposure bias and tend to produce repetitive motion patterns. To address these issues, we propose a novel but simple inference-time approach for long video generation that is architecture-agnostic and requires no additional training. Our method generates long videos via overlapping sliding windows, where predicted clean samples from adjacent windows are blended via Tweedie matching to enforce both manifold constraint and temporal consistency across overlap regions. Stochastic early-phase sampling then synchronizes per-window trajectories by injecting fresh noise after each Tweedie matching correction in the high-noise phase, before transitioning to deterministic ODE sampling to preserve fine-grained visual fidelity. Applied to various video generation models, our method generates videos several times longer than the native window length while outperforming both training-free and autoregressive baselines in temporal consistency and visual quality, and further extends to audio-video joint generation and text-to-3DGS without any fine-tuning.