ChatPaper.aiChatPaper

Infinity-RoPE: 自己回帰的なセフロールアウトから創発する行動制御可能な無限動画生成

Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

November 25, 2025
著者: Hidir Yesiltepe, Tuna Han Salih Meral, Adil Kaan Akan, Kaan Oktay, Pinar Yanardag
cs.AI

要旨

現在の自己回帰型ビデオ拡散モデルは、以下の3つの核心的ボトルネックに制約されている:(i) 基本モデルの3D回転位置埋め込み(3D-RoPE)によって課される有限の時間的視野、(ii) 長時間のロールアウトにおける細粒度の動作制御を維持する際の遅いプロンプト応答性、(iii) 単一の生成ストリーム内で不連続な映画的遷移を実現できない点。我々は、これら3つの制限を相互接続された3つのコンポーネント――ブロック相対論的RoPE、KVフラッシュ、RoPEカット――を通じて解決する推論時統一フレームワークであるinfty-RoPEを提案する。ブロック相対論的RoPEは、時間符号化を移動する局所基準枠として再定式化し、新たに生成される各潜在ブロックを基本モデルの最大フレーム視野に対して回転させると同時に、以前のブロックは相対的時間幾何学を保存するために後方へ回転させる。この相対論的定式化により固定時間位置が排除され、基本的位置制限をはるかに超えた連続的なビデオ生成が可能となる。再符号化なしで細粒度の動作制御を得るため、KVフラッシュはグローバルシンクと最後に生成された潜在フレームの2つの潜在フレームのみを保持してKVキャッシュを更新し、即時のプロンプト応答性を保証する。最後に、RoPEカットは時間的RoPE座標に制御された不連続性を導入し、単一の連続ロールアウト内でのマルチカットシーン遷移を可能とする。これらのコンポーネントが統合されることで、infty-RoPEは無限視野・制御可能・映画的なビデオ拡散のための学習不要の基盤を確立する。包括的実験により、infty-RoPEが従来の自己回帰モデルをVBench総合スコアで一貫して上回ることを示す。
English
Current autoregressive video diffusion models are constrained by three core bottlenecks: (i) the finite temporal horizon imposed by the base model's 3D Rotary Positional Embedding (3D-RoPE), (ii) slow prompt responsiveness in maintaining fine-grained action control during long-form rollouts, and (iii) the inability to realize discontinuous cinematic transitions within a single generation stream. We introduce infty-RoPE, a unified inference-time framework that addresses all three limitations through three interconnected components: Block-Relativistic RoPE, KV Flush, and RoPE Cut. Block-Relativistic RoPE reformulates temporal encoding as a moving local reference frame, where each newly generated latent block is rotated relative to the base model's maximum frame horizon while earlier blocks are rotated backward to preserve relative temporal geometry. This relativistic formulation eliminates fixed temporal positions, enabling continuous video generation far beyond the base positional limits. To obtain fine-grained action control without re-encoding, KV Flush renews the KV cache by retaining only two latent frames, the global sink and the last generated latent frame, thereby ensuring immediate prompt responsiveness. Finally, RoPE Cut introduces controlled discontinuities in temporal RoPE coordinates, enabling multi-cut scene transitions within a single continuous rollout. Together, these components establish infty-RoPE as a training-free foundation for infinite-horizon, controllable, and cinematic video diffusion. Comprehensive experiments show that infty-RoPE consistently surpasses previous autoregressive models in overall VBench scores.
PDF351December 3, 2025