Incorporação de Posição Rotacional com Consciência Geométrica para um Modelo de Mundo de Vídeo Consistente

Resumo

Modelos preditivos de mundo que simulam observações futuras sob controle explícito de câmera são fundamentais para a IA interativa. Apesar dos rápidos avanços, os sistemas atuais carecem de persistência espacial: eles falham em manter estruturas de cena estáveis ao longo de trajetórias longas, frequentemente alucinando detalhes quando as câmeras revisitam locais previamente observados. Nós identificamos que esta deriva geométrica decorre da dependência de *embeddings* posicionais no espaço de tela, que entram em conflito com a geometria projetiva necessária para a consistência 3D. Apresentamos o ViewRope, uma codificação consciente da geometria que injeta direções de raios da câmera diretamente nas camadas de auto-atenção dos transformadores de vídeo. Ao parametrizar a atenção com a geometria relativa dos raios em vez da localidade dos pixels, o ViewRope fornece um viés indutivo nativo ao modelo para recuperar conteúdo 3D consistente através de intervalos temporais. Propomos ainda a *Geometry-Aware Frame-Sparse Attention* (Atenção Esparsa entre Quadros Consciente da Geometria), que explora essas pistas geométricas para atender seletivamente a quadros históricos relevantes, melhorando a eficiência sem sacrificar a consistência da memória. Também apresentamos o ViewBench, um conjunto de ferramentas de diagnóstico que mede a fidelidade no fechamento de loop e a deriva geométrica. Nossos resultados demonstram que o ViewRope melhora substancialmente a consistência de longo prazo enquanto reduz os custos computacionais.

English

Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.

Incorporação de Posição Rotacional com Consciência Geométrica para um Modelo de Mundo de Vídeo Consistente

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Resumo

Support