GeoWorld: Geometrische Wereldmodellen
GeoWorld: Geometric World Models
February 26, 2026
Auteurs: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
cs.AI
Samenvatting
Op energie gebaseerde voorspellende wereldmodellen bieden een krachtige aanpak voor meerstaps visuele planning door redenering over latente energielandschappen in plaats van pixels te genereren. Bestaande methoden kampen echter met twee grote uitdagingen: (i) hun latente representaties worden doorgaans geleerd in een Euclidische ruimte, waarbij de onderliggende geometrische en hiërarchische structuur tussen toestanden wordt verwaarloosd, en (ii) ze hebben moeite met voorspellingen over lange tijdshorizons, wat leidt tot snelle degradatie bij uitgebreide rollouts. Om deze uitdagingen aan te pakken, introduceren we GeoWorld, een geometrisch wereldmodel dat geometrische structuur en hiërarchische relaties behoudt via een hyperbolische JEPA, die latente representaties van de Euclidische ruimte afbeeldt op hyperbolische variëteiten. We introduceren verder Geometrische Reinforcement Learning voor op energie gebaseerde optimalisatie, waardoor stabiele meerstapsplanning in de latente hyperbolische ruimte mogelijk wordt. Uitgebreide experimenten op CrossTask en COIN tonen een verbetering van ongeveer 3% SR bij 3-staps planning en 2% SR bij 4-staps planning aan in vergelijking met de state-of-the-art V-JEPA 2. Projectwebsite: https://steve-zeyu-zhang.github.io/GeoWorld.
English
Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.