Geometrie-Bewuste Roterende Positie-Inbedding voor een Consistent Videowereldmodel

Samenvatting

Voorspellende wereldmodellen die toekomstige observaties simuleren onder expliciete camerabesturing zijn fundamenteel voor interactieve AI. Ondanks snelle vooruitgang ontbreekt het huidige systemen aan ruimtelijke persistentie: ze slagen er niet in stabiele scènestructuren te behouden over lange trajecten, en hallucineren vaak details wanneer camera's eerder waargenomen locaties opnieuw bezoeken. Wij identificeren dat deze geometrische drift voortkomt uit de afhankelijkheid van positie-embeddingen in de beeldruimte, die in conflict zijn met de projectieve geometrie die nodig is voor 3D-consistentie. Wij introduceren ViewRope, een geometriebewuste codering die camerastralingsrichtingen direct injecteert in de zelf-attentielagen van videotransformers. Door aandacht te parametriseren met relatieve straalgeometrie in plaats van pixel-localiteit, biedt ViewRope een model-native inductieve bias voor het ophalen van 3D-consistente inhoud over temporele hiaten. Verder stellen wij Geometrie-Bewust, Frame-Spaarzaam Aandacht voor, dat gebruikmaakt van deze geometrische signalen om selectief aandacht te schenken aan relevante historische frames, waardoor de efficiëntie verbetert zonder geheugenconsistentie op te offeren. Wij presenteren ook ViewBench, een diagnostische suite die lus-sluitingsgetrouwheid en geometrische drift meet. Onze resultaten tonen aan dat ViewRope de langetermijnconsistentie aanzienlijk verbetert en tegelijkertijd de rekenkosten verlaagt.

English

Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce ViewRope, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose Geometry-Aware Frame-Sparse Attention, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present ViewBench, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.

Geometrie-Bewuste Roterende Positie-Inbedding voor een Consistent Videowereldmodel

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Samenvatting

Support