Infinity-RoPE: Geração de Vídeo Infinito Controlável por Ações Emerge do Autodesenrolamento Autoregressivo

Resumo

Os modelos atuais de difusão de vídeo autoregressivos são limitados por três gargalos principais: (i) o horizonte temporal finito imposto pelo Embedding Posicional Rotacional 3D (3D-RoPE) do modelo base, (ii) a resposta lenta a *prompts* para manter o controle de ação granular durante gerações de longa duração e (iii) a incapacidade de realizar transições cinematográficas descontínuas dentro de um único fluxo de geração. Apresentamos o infty-RoPE, uma estrutura unificada de inferência que aborda todas as três limitações através de três componentes interligados: RoPE Bloco-Relativístico, KV Flush e RoPE Cut. O RoPE Bloco-Relativístico reformula a codificação temporal como um quadro de referência local móvel, onde cada novo bloco latente gerado é rotacionado em relação ao horizonte máximo de quadros do modelo base, enquanto blocos anteriores são rotacionados para trás para preservar a geometria temporal relativa. Esta formulação relativística elimina posições temporais fixas, permitindo a geração contínua de vídeo muito além dos limites posicionais base. Para obter controle de ação granular sem recodificação, o KV Flush renova a cache KV retendo apenas dois quadros latentes: o *sink* global e o último quadro latente gerado, garantindo assim uma resposta imediata ao *prompt*. Finalmente, o RoPE Cut introduz descontinuidades controladas nas coordenadas temporais do RoPE, permitindo transições de cena com múltiplos cortes dentro de uma única geração contínua. Juntos, estes componentes estabelecem o infty-RoPE como uma base *training-free* para difusão de vídeo de horizonte infinito, controlável e cinemática. Experimentos abrangentes mostram que o infty-RoPE supera consistentemente os modelos autoregressivos anteriores nas pontuações gerais do VBench.

English

Current autoregressive video diffusion models are constrained by three core bottlenecks: (i) the finite temporal horizon imposed by the base model's 3D Rotary Positional Embedding (3D-RoPE), (ii) slow prompt responsiveness in maintaining fine-grained action control during long-form rollouts, and (iii) the inability to realize discontinuous cinematic transitions within a single generation stream. We introduce infty-RoPE, a unified inference-time framework that addresses all three limitations through three interconnected components: Block-Relativistic RoPE, KV Flush, and RoPE Cut. Block-Relativistic RoPE reformulates temporal encoding as a moving local reference frame, where each newly generated latent block is rotated relative to the base model's maximum frame horizon while earlier blocks are rotated backward to preserve relative temporal geometry. This relativistic formulation eliminates fixed temporal positions, enabling continuous video generation far beyond the base positional limits. To obtain fine-grained action control without re-encoding, KV Flush renews the KV cache by retaining only two latent frames, the global sink and the last generated latent frame, thereby ensuring immediate prompt responsiveness. Finally, RoPE Cut introduces controlled discontinuities in temporal RoPE coordinates, enabling multi-cut scene transitions within a single continuous rollout. Together, these components establish infty-RoPE as a training-free foundation for infinite-horizon, controllable, and cinematic video diffusion. Comprehensive experiments show that infty-RoPE consistently surpasses previous autoregressive models in overall VBench scores.

Infinity-RoPE: Geração de Vídeo Infinito Controlável por Ações Emerge do Autodesenrolamento Autoregressivo

Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

Resumo

Support