ChatPaper.aiChatPaper

GeoWorld: 기하학적 세계 모델

GeoWorld: Geometric World Models

February 26, 2026
저자: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
cs.AI

초록

에너지 기반 예측 세계 모델은 픽셀을 생성하는 대신 잠재 에너지 지형을 추론함으로써 다단계 시각적 계획을 위한 강력한 접근법을 제공합니다. 그러나 기존 방법론은 두 가지 주요 과제에 직면해 있습니다: (i) 잠재 표현이 일반적으로 유클리드 공간에서 학습되어 상태 간의 기하학적 및 계층적 구조를 간과하며, (ii) 장기간 예측에 어려움을 겪어 연장된 롤아웃에서 성능이 급격히 저하됩니다. 이러한 과제를 해결하기 위해 우리는 GeoWorld를 소개합니다. 이는 쌍곡 JEPA(Hyperbolic JEPA)를 통해 잠재 표현을 유클리드 공간에서 쌍곡 다양체로 매핑하여 기하학적 구조와 계층적 관계를 보존하는 기하학적 세계 모델입니다. 또한 쌍곡 잠재 공간에서 안정적인 다단계 계획을 가능하게 하는 에너지 기반 최적화를 위한 기하학적 강화 학습(Geometric Reinforcement Learning)을 도입합니다. CrossTask 및 COIN에 대한 광범위한 실험을 통해 기존 최첨단 V-JEPA 2 대비 3단계 계획에서 약 3% SR 향상, 4단계 계획에서 약 2% SR 향상을 입증했습니다. 프로젝트 웹사이트: https://steve-zeyu-zhang.github.io/GeoWorld.
English
Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.
PDF44February 28, 2026