ChatPaper.aiChatPaper

Infinity-RoPE: Actie-stuurbare Oneindige Videogeneratie Ontstaat uit Autoregressieve Zelf-uitrol

Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

November 25, 2025
Auteurs: Hidir Yesiltepe, Tuna Han Salih Meral, Adil Kaan Akan, Kaan Oktay, Pinar Yanardag
cs.AI

Samenvatting

Huidige autoregressieve videodiffusiemodellen worden beperkt door drie kernproblemen: (i) de eindige temporele horizon opgelegd door de 3D Rotationele Positionele Inbedding (3D-RoPE) van het basismodel, (ii) trage promptresponsiviteit bij het behouden van fijnmazige actiecontrole tijdens langdurige rollouts, en (iii) de onmogelijkheid om discontinue filmische overgangen binnen een enkele generatiestroom te realiseren. Wij introduceren infty-RoPE, een uniform inference-time raamwerk dat alle drie de beperkingen aanpakt via drie onderling verbonden componenten: Block-Relativistische RoPE, KV Flush en RoPE Cut. Block-Relativistische RoPE herformuleert temporele codering als een bewegend lokaal referentiekader, waarbij elk nieuw gegenereerd latent blok wordt geroteerd ten opzichte van de maximale framehorizon van het basismodel, terwijl eerdere blokken achterwaarts worden geroteerd om de relatieve temporele geometrie te behouden. Deze relativistische formulering elimineert vaste temporele posities en maakt continue videogeneratie ver voorbij de basispositionele limieten mogelijk. Om fijnmazige actiecontrole te verkrijgen zonder hercodering, vernieuwt KV Flush de KV-cache door slechts twee latente frames te behouden – het globale ankerpunt en het laatst gegenereerde latente frame – waardoor onmiddellijke promptresponsiviteit wordt gegarandeerd. Ten slotte introduceert RoPE Cut gecontroleerde discontinuïteiten in temporele RoPE-coördinaten, waardoor multi-cut scènetransities binnen een enkele doorlopende rollout mogelijk worden. Gezamenlijk vestigen deze componenten infty-RoPE als een trainingsvrije basis voor oneindig-horizon, controleerbare en filmische videodiffusie. Uitgebreide experimenten tonen aan dat infty-RoPE consistent superieure prestaties levert in algemene VBench-scores vergeleken met eerdere autoregressieve modellen.
English
Current autoregressive video diffusion models are constrained by three core bottlenecks: (i) the finite temporal horizon imposed by the base model's 3D Rotary Positional Embedding (3D-RoPE), (ii) slow prompt responsiveness in maintaining fine-grained action control during long-form rollouts, and (iii) the inability to realize discontinuous cinematic transitions within a single generation stream. We introduce infty-RoPE, a unified inference-time framework that addresses all three limitations through three interconnected components: Block-Relativistic RoPE, KV Flush, and RoPE Cut. Block-Relativistic RoPE reformulates temporal encoding as a moving local reference frame, where each newly generated latent block is rotated relative to the base model's maximum frame horizon while earlier blocks are rotated backward to preserve relative temporal geometry. This relativistic formulation eliminates fixed temporal positions, enabling continuous video generation far beyond the base positional limits. To obtain fine-grained action control without re-encoding, KV Flush renews the KV cache by retaining only two latent frames, the global sink and the last generated latent frame, thereby ensuring immediate prompt responsiveness. Finally, RoPE Cut introduces controlled discontinuities in temporal RoPE coordinates, enabling multi-cut scene transitions within a single continuous rollout. Together, these components establish infty-RoPE as a training-free foundation for infinite-horizon, controllable, and cinematic video diffusion. Comprehensive experiments show that infty-RoPE consistently surpasses previous autoregressive models in overall VBench scores.
PDF351December 3, 2025