ChatPaper.aiChatPaper

Codificación Posicional Rotatoria Consciente de la Geometría para un Modelo de Mundo de Video Consistente

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

February 8, 2026
Autores: Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu
cs.AI

Resumen

Los modelos predictivos del mundo que simulan observaciones futuras bajo control explícito de la cámara son fundamentales para la IA interactiva. A pesar de los rápidos avances, los sistemas actuales carecen de persistencia espacial: no logran mantener estructuras estables de la escena en trayectorias largas, alucinando con frecuencia detalles cuando las cámaras revisitan ubicaciones previamente observadas. Identificamos que esta deriva geométrica surge de la dependencia de *embeddings* posicionales en el espacio de pantalla, los cuales entran en conflicto con la geometría proyectiva requerida para la consistencia 3D. Presentamos ViewRope, una codificación consciente de la geometría que inyecta direcciones de rayos de cámara directamente en las capas de auto-atención de los transformadores de video. Al parametrizar la atención con geometría de rayos relativa en lugar de la localidad de píxeles, ViewRope proporciona un sesgo inductivo nativo del modelo para recuperar contenido 3D-consistente a través de intervalos temporales. Además, proponemos la Atención Esparcida entre Fotogramas Consciente de la Geometría, que explota estas señales geométricas para atender selectivamente a fotogramas históricos relevantes, mejorando la eficiencia sin sacrificar la consistencia de la memoria. También presentamos ViewBench, un conjunto de herramientas de diagnóstico que mide la fidelidad de cierre de bucles y la deriva geométrica. Nuestros resultados demuestran que ViewRope mejora sustancialmente la consistencia a largo plazo mientras reduce los costos computacionales.
English
Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.
PDF21February 19, 2026