Геометрически-осознанное ротационное позиционное кодирование для согласованной видео-мировой модели
Geometry-Aware Rotary Position Embedding for Consistent Video World Model
February 8, 2026
Авторы: Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu
cs.AI
Аннотация
Прогностические мировые модели, которые симулируют будущие наблюдения при явном управлении камерой, являются основой интерактивного искусственного интеллекта. Несмотря на быстрый прогресс, современные системы страдают от отсутствия пространственной устойчивости: они не способны сохранять стабильные структуры сцены на длительных траекториях, часто галлюцинируя детали при повторном посещении камерой ранее наблюдаемых мест. Мы установили, что этот геометрический дрейф проистекает из зависимости от позиционных эмбеддингов в экранном пространстве, которые конфликтуют с проективной геометрией, необходимой для 3D-согласованности. Мы представляем ViewRope — геометрически осознанное кодирование, которое внедряет направления лучей камеры непосредственно в слои самовнимания видео-трансформеров. Параметризуя внимание относительной геометрией лучей, а не локальностью пикселей, ViewRope обеспечивает встроенное в модель индуктивное смещение для извлечения 3D-согласованного контента через временные промежутки. Мы также предлагаем Геометрически Осознанное Редкое Внимание по Кадрам, которое использует эти геометрические сигналы для выборочного обращения к релевантным историческим кадрам, повышая эффективность без ущерба для согласованности памяти. Кроме того, мы представляем ViewBench — диагностический набор тестов, измеряющий точность замыкания траекторий и геометрический дрейф. Наши результаты демонстрируют, что ViewRope существенно улучшает долгосрочную согласованность, одновременно снижая вычислительные затраты.
English
Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.