Stable Video Infinity: エラーリサイクルによる無限長動画生成
Stable Video Infinity: Infinite-Length Video Generation with Error Recycling
October 10, 2025
著者: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
cs.AI
要旨
我々は、高い時間的一貫性、説得力のあるシーントランジション、そして制御可能なストリーミングストーリーラインを備えた無限長のビデオを生成可能なStable Video Infinity(SVI)を提案する。既存の長尺ビデオ生成手法は、手作りのアンチドリフト(例えば、修正されたノイズスケジューラ、フレームアンカリング)を介して蓄積されたエラーを軽減しようと試みているが、それらは単一プロンプトの外挿に限定されており、反復的な動きを伴う均質なシーンを生成するに留まっている。我々は、この根本的な課題がエラー蓄積を超えて、トレーニング時の仮定(クリーンデータを見る)とテスト時の自己回帰的現実(自己生成されたエラーのある出力を条件とする)との間の重要な不一致にまで及んでいることを特定した。この仮説のギャップを埋めるため、SVIはエラーリサイクルファインチューニングを組み込んでいる。これは、Diffusion Transformer(DiT)が自己生成したエラーを教師プロンプトとしてリサイクルし、DiTが積極的に自身のエラーを特定し修正することを促す、新たな効率的なトレーニング手法である。これは、閉ループリサイクルを通じてエラーを注入、収集、蓄積し、エラー注入フィードバックから自己回帰的に学習することで実現される。具体的には、(i) DiTが過去に犯したエラーをクリーンな入力に介入させ、フローマッチングにおけるエラー蓄積軌跡をシミュレートする。(ii) 一方向双方向積分を用いて予測を効率的に近似し、残差を用いてエラーを計算する。(iii) 離散化されたタイムステップにわたってエラーをリプレイメモリに動的に蓄積し、新しい入力として再サンプリングする。SVIは、追加の推論コストなしにビデオを秒単位から無限の長さにスケールすることが可能であり、多様な条件(例えば、オーディオ、スケルトン、テキストストリーム)との互換性を維持する。我々は、一貫性、創造性、条件付き設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
English
We propose Stable Video Infinity (SVI) that is able to generate
infinite-length videos with high temporal consistency, plausible scene
transitions, and controllable streaming storylines. While existing long-video
methods attempt to mitigate accumulated errors via handcrafted anti-drifting
(e.g., modified noise scheduler, frame anchoring), they remain limited to
single-prompt extrapolation, producing homogeneous scenes with repetitive
motions. We identify that the fundamental challenge extends beyond error
accumulation to a critical discrepancy between the training assumption (seeing
clean data) and the test-time autoregressive reality (conditioning on
self-generated, error-prone outputs). To bridge this hypothesis gap, SVI
incorporates Error-Recycling Fine-Tuning, a new type of efficient training that
recycles the Diffusion Transformer (DiT)'s self-generated errors into
supervisory prompts, thereby encouraging DiT to actively identify and correct
its own errors. This is achieved by injecting, collecting, and banking errors
through closed-loop recycling, autoregressively learning from error-injected
feedback. Specifically, we (i) inject historical errors made by DiT to
intervene on clean inputs, simulating error-accumulated trajectories in flow
matching; (ii) efficiently approximate predictions with one-step bidirectional
integration and calculate errors with residuals; (iii) dynamically bank errors
into replay memory across discretized timesteps, which are resampled for new
input. SVI is able to scale videos from seconds to infinite durations with no
additional inference cost, while remaining compatible with diverse conditions
(e.g., audio, skeleton, and text streams). We evaluate SVI on three benchmarks,
including consistent, creative, and conditional settings, thoroughly verifying
its versatility and state-of-the-art role.