ChatPaper.aiChatPaper

FlowLong: 流形制約付きTweedieマッチングによる推論時長尺動画生成

FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching

May 20, 2026
著者: Jangho Park, Geon Yeong Park, Gihyun Kwon, Jong Chul Ye
cs.AI

要旨

ビデオ拡散モデルの生成範囲を長い系列に拡張することは、長年にわたる重要な課題である。既存の学習不要アプローチは、特定のアーキテクチャに強く結合され長い範囲で品質劣化を生じる双方向モデルの拡張と、露出バイアスによりドリフト誤差が蓄積し反復的な動作パターンを生成しがちな自己回帰モデルの二種類に分類される。これらの問題に対処するため、我々はアーキテクチャ非依存で追加学習を必要としない、新規だがシンプルな長尺動画生成のための推論時アプローチを提案する。本手法は、重なり合うスライディングウィンドウを介して長尺動画を生成する。隣接するウィンドウからの予測されたクリーンサンプルをツイーディマッチングによりブレンドし、重複領域において多様体制約と時間的一貫性の両方を強制する。その後、確率的初期位相サンプリングにより、高ノイズフェーズでの各ツイーディマッチング補正後に新しいノイズを注入して各ウィンドウの軌跡を同期させ、その後、決定論的ODEサンプリングに移行して細粒度の視覚的忠実度を保持する。本手法を様々な動画生成モデルに適用したところ、基本ウィンドウ長の数倍の長さの動画を生成し、時間的一貫性と視覚的品質において学習不要および自己回帰のベースラインを上回り、さらにファインチューニングなしで音声動画同時生成やテキストから3DGSへの拡張も可能である。
English
Extending the generation horizon of video diffusion models to long sequences remains a long-standing and important challenge. Existing training-free approaches fall into two categories: extensions of bidirectional models, which are tightly coupled to specific architectures and suffer from quality degradation over long horizons, and autoregressive models, which accumulate drift errors due to exposure bias and tend to produce repetitive motion patterns. To address these issues, we propose a novel but simple inference-time approach for long video generation that is architecture-agnostic and requires no additional training. Our method generates long videos via overlapping sliding windows, where predicted clean samples from adjacent windows are blended via Tweedie matching to enforce both manifold constraint and temporal consistency across overlap regions. Stochastic early-phase sampling then synchronizes per-window trajectories by injecting fresh noise after each Tweedie matching correction in the high-noise phase, before transitioning to deterministic ODE sampling to preserve fine-grained visual fidelity. Applied to various video generation models, our method generates videos several times longer than the native window length while outperforming both training-free and autoregressive baselines in temporal consistency and visual quality, and further extends to audio-video joint generation and text-to-3DGS without any fine-tuning.