ChatPaper.aiChatPaper

GeoWorld: Геометрические модели мира

GeoWorld: Geometric World Models

February 26, 2026
Авторы: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
cs.AI

Аннотация

Прогностические мировые модели на основе энергии предлагают мощный подход к многошаговому визуальному планированию за счёт анализа скрытых энергетических ландшафтов вместо генерации пикселей. Однако существующие методы сталкиваются с двумя основными проблемами: (i) их скрытые представления обычно обучаются в евклидовом пространстве, игнорируя underlying геометрическую и иерархическую структуру между состояниями, и (ii) они испытывают трудности с долгосрочным прогнозированием, что приводит к быстрой деградации при extended rollout. Для решения этих проблем мы представляем GeoWorld — геометрическую мировую модель, которая сохраняет геометрическую структуру и иерархические отношения с помощью Hyperbolic JEPA, отображающей скрытые представления из евклидова пространства на гиперболические многообразия. Мы также вводим Geometric Reinforcement Learning для энергетической оптимизации, обеспечивая стабильное многошаговое планирование в гиперболическом скрытом пространстве. Масштабные эксперименты на CrossTask и COIN демонстрируют улучшение Success Rate (SR) примерно на 3% при 3-шаговом планировании и на 2% при 4-шаговом планировании по сравнению с передовой моделью V-JEPA 2. Веб-сайт проекта: https://steve-zeyu-zhang.github.io/GeoWorld.
English
Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.
PDF44February 28, 2026