GeoWorld : Modèles de Monde Géométriques
GeoWorld: Geometric World Models
February 26, 2026
Auteurs: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
cs.AI
Résumé
Les modèles prédictifs du monde basés sur l'énergie offrent une approche puissante pour la planification visuelle multi-étapes en raisonnant sur des paysages d'énergie latents plutôt qu'en générant des pixels. Cependant, les approches existantes sont confrontées à deux défis majeurs : (i) leurs représentations latentes sont généralement apprises dans un espace euclidien, négligeant la structure géométrique et hiérarchique sous-jacente entre les états, et (ii) elles peinent avec la prédiction à long terme, ce qui entraîne une dégradation rapide lors des déploiements étendus. Pour relever ces défis, nous présentons GeoWorld, un modèle géométrique du monde qui préserve la structure géométrique et les relations hiérarchiques via un JEPA hyperbolique, qui projette les représentations latentes de l'espace euclidien sur des variétés hyperboliques. Nous introduisons également l'apprentissage par renforcement géométrique pour l'optimisation basée sur l'énergie, permettant une planification multi-étapes stable dans l'espace latent hyperbolique. Des expériences approfondies sur CrossTask et COIN démontrent une amélioration d'environ 3% du taux de réussite (SR) pour la planification à 3 étapes et de 2% pour la planification à 4 étapes par rapport à l'état de l'art V-JEPA 2. Site web du projet : https://steve-zeyu-zhang.github.io/GeoWorld.
English
Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.