ChatPaper.aiChatPaper

GeoWorld: Modelos Mundiales Geométricos

GeoWorld: Geometric World Models

February 26, 2026
Autores: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
cs.AI

Resumen

Los modelos predictivos del mundo basados en energía ofrecen un enfoque potente para la planificación visual multi-paso al razonar sobre paisajes de energía latentes en lugar de generar píxeles. Sin embargo, los enfoques existentes enfrentan dos desafíos principales: (i) sus representaciones latentes generalmente se aprenden en espacio euclidiano, descuidando la estructura geométrica y jerárquica subyacente entre estados, y (ii) luchan con la predicción de horizonte largo, lo que conduce a una rápida degradación en las simulaciones extendidas. Para abordar estos desafíos, presentamos GeoWorld, un modelo del mundo geométrico que preserva la estructura geométrica y las relaciones jerárquicas mediante un JEPA Hiperbólico, que mapea representaciones latentes del espacio euclidiano a variedades hiperbólicas. Además, introducimos el Aprendizaje por Refuerzo Geométrico para la optimización basada en energía, permitiendo una planificación multi-paso estable en el espacio latente hiperbólico. Experimentos exhaustivos en CrossTask y COIN demuestran una mejora de aproximadamente 3% en SR para planificación de 3 pasos y 2% en SR para planificación de 4 pasos en comparación con el estado del arte V-JEPA 2. Sitio web del proyecto: https://steve-zeyu-zhang.github.io/GeoWorld.
English
Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.
PDF44February 28, 2026