FlowLong: Inferenzzeit-Langvideo-Generierung durch mannigfaltigkeitsbeschränktes Tweedie-Matching

Zusammenfassung

Die Erweiterung des Generierungshorizonts von Videodiffusionsmodellen auf lange Sequenzen bleibt eine langjährige und wichtige Herausforderung. Bestehende trainingsfreie Ansätze fallen in zwei Kategorien: Erweiterungen bidirektionaler Modelle, die eng an spezifische Architekturen gebunden sind und über lange Horizonte hinweg unter Qualitätsverschlechterung leiden, sowie autoregressive Modelle, die aufgrund von Exposure Bias Driftfehler akkumulieren und tendenziell sich wiederholende Bewegungsmuster erzeugen. Um diese Probleme zu adressieren, schlagen wir einen neuartigen, aber einfachen Inferenzansatz zur Generierung langer Videos vor, der architekturunabhängig ist und kein zusätzliches Training erfordert. Unsere Methode erzeugt lange Videos mittels überlappender gleitender Fenster, wobei vorhergesagte saubere Stichproben benachbarter Fenster durch Tweedie-Matching gemischt werden, um sowohl die Mannigfaltigkeitsbedingung als auch die zeitliche Konsistenz über Überlappungsbereiche hinweg zu gewährleisten. Stochastisches Frühphasen-Sampling synchronisiert anschließend die Trajektorien der einzelnen Fenster, indem nach jeder Tweedie-Matching-Korrektur in der Hochrauschphase frisches Rauschen injiziert wird, bevor zu deterministischem ODE-Sampling übergegangen wird, um eine feinkörnige visuelle Wiedergabetreue zu bewahren. Angewandt auf verschiedene Videogenerierungsmodelle erzeugt unsere Methode Videos, die um ein Vielfaches länger sind als die native Fensterlänge, und übertrifft dabei sowohl trainingsfreie als auch autoregressive Basislinien in zeitlicher Konsistenz und visueller Qualität. Darüber hinaus lässt sich die Methode ohne jegliches Feintuning auf die gemeinsame Audio-Video-Generierung sowie auf Text-zu-3DGS erweitern.

English

Extending the generation horizon of video diffusion models to long sequences remains a long-standing and important challenge. Existing training-free approaches fall into two categories: extensions of bidirectional models, which are tightly coupled to specific architectures and suffer from quality degradation over long horizons, and autoregressive models, which accumulate drift errors due to exposure bias and tend to produce repetitive motion patterns. To address these issues, we propose a novel but simple inference-time approach for long video generation that is architecture-agnostic and requires no additional training. Our method generates long videos via overlapping sliding windows, where predicted clean samples from adjacent windows are blended via Tweedie matching to enforce both manifold constraint and temporal consistency across overlap regions. Stochastic early-phase sampling then synchronizes per-window trajectories by injecting fresh noise after each Tweedie matching correction in the high-noise phase, before transitioning to deterministic ODE sampling to preserve fine-grained visual fidelity. Applied to various video generation models, our method generates videos several times longer than the native window length while outperforming both training-free and autoregressive baselines in temporal consistency and visual quality, and further extends to audio-video joint generation and text-to-3DGS without any fine-tuning.