ChatPaper.aiChatPaper

일관된 비디오 세계 모델을 위한 기하 구조 인식 회전 위치 임베딩

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

February 8, 2026
저자: Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu
cs.AI

초록

명시적 카메라 제어 하에서 미래 관측을 시뮬레이션하는 예측적 세계 모델은 상호작용형 AI의 기초를 이룹니다. 빠른 발전에도 불구하고, 현재 시스템은 공간 지속성이 부족합니다. 즉, 장기 궤적에 걸쳐 안정적인 장면 구조를 유지하지 못하며 카메라가 이전에 관측한 위치를 재방문할 때 세부 사항을 빈번히 환각(hallucinate)합니다. 우리는 이러한 기하학적 표류(geometric drift)가 3D 일관성에 필요한 투영 기하학(projective geometry)과 상충되는 스크린 공간 위치 임베딩(screen-space positional embeddings)에 대한 의존성에서 비롯됨을 규명했습니다. 우리는 카메라 광선 방향을 비전 변환기(video transformer)의 자기 주의(self-attention) 계층에 직접 주입하는 기하학 인지 인코딩인 ViewRope를 제안합니다. 픽셀 지역성(pixel locality)이 아닌 상대적 광선 기하학으로 주의를 매개변수화함으로써, ViewRope는 시간적 격차를 넘어 3D 일관성 있는 콘텐츠를 검색하기 위한 모델 고유의 귀납적 편향(inductive bias)을 제공합니다. 우리는 더 나아가 이러한 기하학적 단서를 활용하여 관련 역사 프레임에 선택적으로 주의를 기울여 메모리 일관성을 희생하지 않으면서 효율성을 향상시키는 기하학 인지 희소 프레임 주의(Geometry-Aware Frame-Sparse Attention)를 제안합니다. 또한 루프 폐쇄(loop-closure) 충실도와 기하학적 표류를 측정하는 진단 도구 모음인 ViewBench를 소개합니다. 우리의 결과는 ViewRope가 계산 비용을 줄이면서 장기적 일관성을 크게 향상시킴을 입증합니다.
English
Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.
PDF21February 19, 2026