FlowLong: Lange Video Generatie tijdens Inferentie via Manifold-gelimiteerd Tweedie Matching

Samenvatting

Het verlengen van de generatiehorizon van videodiffusiemodellen naar lange sequenties blijft een langdurige en belangrijke uitdaging. Bestaande trainingsvrije benaderingen vallen in twee categorieën: uitbreidingen van bidirectionele modellen, die sterk gekoppeld zijn aan specifieke architecturen en lijden onder kwaliteitsverlies over lange horizonten, en autoregressieve modellen, die drifffouten accumuleren door expositiebias en de neiging hebben repetitieve bewegingspatronen te produceren. Om deze problemen aan te pakken, stellen we een nieuwe maar eenvoudige inferentie-tijd benadering voor lange videogeneratie voor die architectuur-agnostisch is en geen extra training vereist. Onze methode genereert lange video's via overlappende schuifvensters, waarbij voorspelde schone monsters van aangrenzende vensters worden gemengd via Tweedie-matching om zowel de variëteitsbeperking als de temporele consistentie over overlappende gebieden af te dwingen. Stochastische vroege-fase-sampling synchroniseert vervolgens de trajecten per venster door verse ruis te injecteren na elke Tweedie-matchingcorrectie in de hoge-ruisfase, alvorens over te schakelen naar deterministische ODE-sampling om fijnmazige visuele getrouwheid te behouden. Toegepast op verschillende videogeneratiemodellen genereert onze methode video's die meerdere keren langer zijn dan de oorspronkelijke vensterlengte, terwijl ze zowel trainingsvrije als autoregressieve baselines overtreft in temporele consistentie en visuele kwaliteit, en breidt zich verder uit naar audio-video gezamenlijke generatie en tekst-naar-3DGS zonder enige fine-tuning.

English

Extending the generation horizon of video diffusion models to long sequences remains a long-standing and important challenge. Existing training-free approaches fall into two categories: extensions of bidirectional models, which are tightly coupled to specific architectures and suffer from quality degradation over long horizons, and autoregressive models, which accumulate drift errors due to exposure bias and tend to produce repetitive motion patterns. To address these issues, we propose a novel but simple inference-time approach for long video generation that is architecture-agnostic and requires no additional training. Our method generates long videos via overlapping sliding windows, where predicted clean samples from adjacent windows are blended via Tweedie matching to enforce both manifold constraint and temporal consistency across overlap regions. Stochastic early-phase sampling then synchronizes per-window trajectories by injecting fresh noise after each Tweedie matching correction in the high-noise phase, before transitioning to deterministic ODE sampling to preserve fine-grained visual fidelity. Applied to various video generation models, our method generates videos several times longer than the native window length while outperforming both training-free and autoregressive baselines in temporal consistency and visual quality, and further extends to audio-video joint generation and text-to-3DGS without any fine-tuning.