Incorporamento Posizionale Rotatorio Consapevole della Geometria per Modelli Video Mondiali Coerenti

Abstract

I modelli predittivi del mondo che simulano osservazioni future sotto controllo esplicito della fotocamera sono fondamentali per l'IA interattiva. Nonostante i rapidi progressi, i sistemi attuali mancano di persistenza spaziale: non riescono a mantenere strutture di scena stabili su traiettorie lunghe, allucinando frequentemente dettagli quando le telecamere rivisitano posizioni precedentemente osservate. Identifichiamo che questa deriva geometrica origina dalla dipendenza da embedding posizionali nello spazio dello schermo, che confliggono con la geometria proiettiva richiesta per la consistenza 3D. Introduciamo ViewRope, una codifica consapevole della geometria che inietta le direzioni dei raggi della fotocamera direttamente negli strati di self-attention dei transformer video. Parametrizzando l'attenzione con la geometria relativa dei raggi anziché con la località dei pixel, ViewRope fornisce un bias induttivo nativo al modello per recuperare contenuti 3D-consistenti attraverso intervalli temporali. Proponiamo inoltre l'Attenzione Sparsa su Frame Consapevole della Geometria, che sfrutta questi segnali geometrici per selezionare attentamente i frame storici rilevanti, migliorando l'efficienza senza sacrificare la consistenza della memoria. Presentiamo anche ViewBench, una suite diagnostica che misura la fedeltà nella chiusura dei loop e la deriva geometrica. I nostri risultati dimostrano che ViewRope migliora sostanzialmente la consistenza a lungo termine riducendo al contempo i costi computazionali.

English

Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.

Incorporamento Posizionale Rotatorio Consapevole della Geometria per Modelli Video Mondiali Coerenti

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Abstract

Support