ChatPaper.aiChatPaper

GeoWorld: Modelli Geometrici del Mondo

GeoWorld: Geometric World Models

February 26, 2026
Autori: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
cs.AI

Abstract

I modelli predittivi del mondo basati sull'energia forniscono un approccio potente per la pianificazione visiva multi-step ragionando su paesaggi energetici latenti anziché generando pixel. Tuttavia, gli approcci esistenti affrontano due sfide principali: (i) le loro rappresentazioni latenti sono tipicamente apprese in spazio euclideo, trascurando la struttura geometrica e gerarchica sottostante tra gli stati, e (ii) faticano con la predizione a lungo orizzonte, il che porta a un rapido degrado durante rollout estesi. Per affrontare queste sfide, introduciamo GeoWorld, un modello geometrico del mondo che preserva la struttura geometrica e le relazioni gerarchiche attraverso una JEPA iperbolica, che mappa le rappresentazioni latenti dallo spazio euclideo su varietà iperboliche. Introduciamo inoltre il Geometric Reinforcement Learning per l'ottimizzazione basata sull'energia, abilitando una pianificazione multi-step stabile nello spazio latente iperbolico. Esperimenti estensivi su CrossTask e COIN dimostrano un miglioramento di circa il 3% nell'SR per la pianificazione a 3 step e del 2% nell'SR per la pianificazione a 4 step rispetto allo state-of-the-art V-JEPA 2. Sito web del progetto: https://steve-zeyu-zhang.github.io/GeoWorld.
English
Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.
PDF85March 16, 2026