ChatPaper.aiChatPaper

Intégration de l'encodage positionnel rotatif géométrique pour un modèle de monde vidéo cohérent

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

February 8, 2026
papers.authors: Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu
cs.AI

papers.abstract

Les modèles prédictifs du monde qui simulent des observations futures sous contrôle explicite de la caméra sont fondamentaux pour l'IA interactive. Malgré des progrès rapides, les systèmes actuels manquent de persistance spatiale : ils ne parviennent pas à maintenir des structures de scène stables sur de longues trajectoires, hallucinant fréquemment des détails lorsque les caméras revisitent des emplacements précédemment observés. Nous identifions que cette dérive géométrique provient de la dépendance aux embeddings positionnels dans l'espace écran, qui entrent en conflit avec la géométrie projective requise pour la cohérence 3D. Nous présentons ViewRope, un encodage géométriquement conscient qui injecte les directions des rayons de la caméra directement dans les couches d'auto-attention des transformeurs vidéo. En paramétrisant l'attention avec la géométrie relative des rayons plutôt qu'avec la localité des pixels, ViewRope fournit un biais inductif natif au modèle pour récupérer un contenu 3D cohérent à travers les écarts temporels. Nous proposons en outre l'Attention Éparse Inter-Images Géométriquement Consciente, qui exploite ces indices géométriques pour traiter sélectivement les images historiques pertinentes, améliorant l'efficacité sans sacrifier la cohérence mémoire. Nous présentons également ViewBench, une suite de diagnostic mesurant la fidélité de fermeture de boucle et la dérive géométrique. Nos résultats démontrent que ViewRope améliore substantiellement la cohérence à long terme tout en réduisant les coûts computationnels.
English
Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.
PDF21February 19, 2026