Infinity-RoPE: La Generación de Video Infinito Controlable por Acciones Surge del Autodespliegue Autoregresivo
Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout
November 25, 2025
Autores: Hidir Yesiltepe, Tuna Han Salih Meral, Adil Kaan Akan, Kaan Oktay, Pinar Yanardag
cs.AI
Resumen
Los actuales modelos de difusión de video autoregresivos están limitados por tres cuellos de botella principales: (i) el horizonte temporal finito impuesto por el Embedding Posicional Rotatorio 3D (3D-RoPE) del modelo base, (ii) la lenta capacidad de respuesta a los prompts para mantener un control de acción granular durante generaciones de larga duración, y (iii) la incapacidad de realizar transiciones cinematográficas discontinuas dentro de un único flujo de generación. Presentamos infty-RoPE, un marco unificado de inferencia que aborda las tres limitaciones mediante tres componentes interconectados: RoPE Block-Relativistic, KV Flush y RoPE Cut. RoPE Block-Relativistic reformula la codificación temporal como un marco de referencia local en movimiento, donde cada nuevo bloque latente generado se rota en relación con el horizonte máximo de frames del modelo base, mientras que los bloques anteriores se rotan hacia atrás para preservar la geometría temporal relativa. Esta formulación relativística elimina las posiciones temporales fijas, permitiendo una generación de video continua mucho más allá de los límites posicionales base. Para obtener un control de acción granular sin necesidad de re-codificación, KV Flush renueva la caché KV reteniendo solo dos frames latentes: el sumidero global y el último frame latente generado, garantizando así una respuesta inmediata al prompt. Finalmente, RoPE Cut introduce discontinuidades controladas en las coordenadas temporales de RoPE, permitiendo transiciones de escena multicorte dentro de una única generación continua. En conjunto, estos componentes establecen a infty-RoPE como una base libre de entrenamiento para la difusión de video de horizonte infinito, controlable y cinematográfico. Experimentos exhaustivos demuestran que infty-RoPE supera consistentemente a los modelos autoregresivos anteriores en las puntuaciones generales de VBench.
English
Current autoregressive video diffusion models are constrained by three core bottlenecks: (i) the finite temporal horizon imposed by the base model's 3D Rotary Positional Embedding (3D-RoPE), (ii) slow prompt responsiveness in maintaining fine-grained action control during long-form rollouts, and (iii) the inability to realize discontinuous cinematic transitions within a single generation stream. We introduce infty-RoPE, a unified inference-time framework that addresses all three limitations through three interconnected components: Block-Relativistic RoPE, KV Flush, and RoPE Cut. Block-Relativistic RoPE reformulates temporal encoding as a moving local reference frame, where each newly generated latent block is rotated relative to the base model's maximum frame horizon while earlier blocks are rotated backward to preserve relative temporal geometry. This relativistic formulation eliminates fixed temporal positions, enabling continuous video generation far beyond the base positional limits. To obtain fine-grained action control without re-encoding, KV Flush renews the KV cache by retaining only two latent frames, the global sink and the last generated latent frame, thereby ensuring immediate prompt responsiveness. Finally, RoPE Cut introduces controlled discontinuities in temporal RoPE coordinates, enabling multi-cut scene transitions within a single continuous rollout. Together, these components establish infty-RoPE as a training-free foundation for infinite-horizon, controllable, and cinematic video diffusion. Comprehensive experiments show that infty-RoPE consistently surpasses previous autoregressive models in overall VBench scores.