GeoWorld: Modelos Mundiais Geométricos
GeoWorld: Geometric World Models
February 26, 2026
Autores: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
cs.AI
Resumo
Os modelos preditivos de mundo baseados em energia oferecem uma abordagem poderosa para planejamento visual multi-etapa ao raciocinar sobre paisagens de energia latentes em vez de gerar pixels. No entanto, as abordagens existentes enfrentam dois grandes desafios: (i) suas representações latentes são tipicamente aprendidas em espaço Euclidiano, negligenciando a estrutura geométrica e hierárquica subjacente entre estados, e (ii) elas lutam com previsão de longo horizonte, o que leva à rápida degradação ao longo de rollouts estendidos. Para enfrentar esses desafios, introduzimos o GeoWorld, um modelo de mundo geométrico que preserva a estrutura geométrica e relações hierárquicas através de um JEPA Hiperbólico, que mapeia representações latentes do espaço Euclidiano para variedades hiperbólicas. Introduzimos ainda o Reforço Geométrico de Aprendizagem para otimização baseada em energia, permitindo planejamento multi-etapa estável no espaço latente hiperbólico. Experimentos extensivos no CrossTask e COIN demonstram uma melhoria de aproximadamente 3% na Taxa de Sucesso (SR) no planejamento de 3 etapas e 2% de melhoria na SR no planejamento de 4 etapas em comparação com o estado da arte V-JEPA 2. Site do projeto: https://steve-zeyu-zhang.github.io/GeoWorld.
English
Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.