ChatPaper.aiChatPaper

Geometriebewusste Rotary-Positionscodierung für konsistente Videoweltenmodelle

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

February 8, 2026
papers.authors: Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu
cs.AI

papers.abstract

Prädiktive Weltmodelle, die zukünftige Beobachtungen unter expliziter Kamerasteuerung simulieren, sind grundlegend für interaktive KI. Trotz rascher Fortschritte mangelt es aktuellen Systemen an räumlicher Persistenz: Sie können stabile Szenenstrukturen über lange Trajektorien nicht aufrechterhalten und halluzinieren häufig Details, wenn Kameras zuvor beobachtete Orte erneut aufsuchen. Wir identifizieren, dass diese geometrische Drift auf die Abhängigkeit von bildschirmraum-basierten Positions-Einbettungen zurückzuführen ist, die mit der für 3D-Konsistenz erforderlichen projektiven Geometrie in Konflikt stehen. Wir stellen ViewRope vor, eine geometrie-bewusste Kodierung, die Kamerastrahlenrichtungen direkt in die Self-Attention-Schichten von Video-Transformatoren injiziert. Indem die Aufmerksamkeit mit relativer Strahlgeometrie statt mit Pixel-Lokalität parametrisiert wird, bietet ViewRope eine modell-native induktive Verzerrung für den Abruf von 3D-konsistenten Inhalten über zeitliche Lücken hinweg. Wir schlagen weiterhin Geometry-Aware Frame-Sparse Attention vor, das diese geometrischen Hinweise nutzt, um selektiv relevante historische Frames zu berücksichtigen, was die Effizienz verbessert, ohne die Speicherkonsistenz zu opfern. Wir präsentieren außerdem ViewBench, eine diagnostische Testsuite, welche die Schleifenschluss-Treue und die geometrische Drift misst. Unsere Ergebnisse demonstrieren, dass ViewRope die langfristige Konsistenz erheblich verbessert und gleichzeitig die Rechenkosten reduziert.
English
Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.
PDF21February 19, 2026