Infinity-RoPE : La génération de vidéos infinies et pilotable émerge de l'auto-déroulement autoregressif

Résumé

Les modèles de diffusion vidéo autorégressifs actuels sont limités par trois goulots d'étranglement fondamentaux : (i) l'horizon temporel fini imposé par l'encodage positionnel rotatif 3D (3D-RoPE) du modèle de base, (ii) une lente réactivité aux prompts pour maintenir un contrôle précis des actions lors de générations longues, et (iii) l'incapacité à réaliser des transitions cinématographiques discontinues dans un seul flux de génération. Nous présentons infty-RoPE, un cadre d'inférence unifié qui résout ces trois limitations via trois composants interconnectés : le RoPE block-relativiste, le KV Flush et le RoPE Cut. Le RoPE block-relativiste reformule l'encodage temporel comme un référentiel local mobile, où chaque nouveau bloc latent généré est rotatif par rapport à l'horizon temporel maximal du modèle de base, tandis que les blocs antérieurs sont pivotés vers l'arrière pour préserver la géométrie temporelle relative. Cette formulation relativiste élimine les positions temporelles fixes, permettant une génération vidéo continue bien au-delà des limites positionnelles de base. Pour obtenir un contrôle granulaire des actions sans ré-encodage, KV Flush renouvelle le cache KV en ne conservant que deux images latentes : le point d'ancrage global et la dernière image latente générée, garantissant ainsi une réactivité immédiate au prompt. Enfin, RoPE Cut introduit des discontinuités contrôlées dans les coordonnées RoPE temporelles, permettant des transitions scéniques multi-plans dans un déroulement continu unique. Ensemble, ces composants établissent infty-RoPE comme une fondation sans apprentissage pour la diffusion vidéo à horizon infini, contrôlable et cinématographique. Des expériences exhaustives montrent qu'infty-RoPE surpasse constamment les modèles autorégressifs précédents dans les scores globaux VBench.

English

Current autoregressive video diffusion models are constrained by three core bottlenecks: (i) the finite temporal horizon imposed by the base model's 3D Rotary Positional Embedding (3D-RoPE), (ii) slow prompt responsiveness in maintaining fine-grained action control during long-form rollouts, and (iii) the inability to realize discontinuous cinematic transitions within a single generation stream. We introduce infty-RoPE, a unified inference-time framework that addresses all three limitations through three interconnected components: Block-Relativistic RoPE, KV Flush, and RoPE Cut. Block-Relativistic RoPE reformulates temporal encoding as a moving local reference frame, where each newly generated latent block is rotated relative to the base model's maximum frame horizon while earlier blocks are rotated backward to preserve relative temporal geometry. This relativistic formulation eliminates fixed temporal positions, enabling continuous video generation far beyond the base positional limits. To obtain fine-grained action control without re-encoding, KV Flush renews the KV cache by retaining only two latent frames, the global sink and the last generated latent frame, thereby ensuring immediate prompt responsiveness. Finally, RoPE Cut introduces controlled discontinuities in temporal RoPE coordinates, enabling multi-cut scene transitions within a single continuous rollout. Together, these components establish infty-RoPE as a training-free foundation for infinite-horizon, controllable, and cinematic video diffusion. Comprehensive experiments show that infty-RoPE consistently surpasses previous autoregressive models in overall VBench scores.

Infinity-RoPE : La génération de vidéos infinies et pilotable émerge de l'auto-déroulement autoregressif

Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

Résumé

Support