ChatPaper.aiChatPaper

GeoWorld: Geometrische Weltmodelle

GeoWorld: Geometric World Models

February 26, 2026
Autoren: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
cs.AI

Zusammenfassung

Energiebasierte prädiktive Weltmodelle bieten einen leistungsstarken Ansatz für mehrstufige visuelle Planung, indem sie über latente Energielandschaften statt durch Generierung von Pixeln reasoning. Bestehende Ansätze stehen jedoch vor zwei großen Herausforderungen: (i) ihre latenten Repräsentationen werden typischerweise im euklidischen Raum gelernt, wobei die zugrundeliegende geometrische und hierarchische Struktur zwischen Zuständen vernachlässigt wird, und (ii) sie haben Schwierigkeiten mit Langzeitprognosen, was zu einem raschen Qualitätsverlust über längere Rollouts führt. Um diese Herausforderungen zu adressieren, führen wir GeoWorld ein, ein geometrisches Weltmodell, das die geometrische Struktur und hierarchische Beziehungen durch einen hyperbolischen JEPA erhält, der latente Repräsentationen vom euklidischen Raum auf hyperbolische Mannigfaltigkeiten abbildet. Wir führen weiterhin Geometrisches Reinforcement Learning zur energiebasierten Optimierung ein, das eine stabile mehrstufige Planung im hyperbolischen latenten Raum ermöglicht. Umfangreiche Experimente auf CrossTask und COIN zeigen eine Verbesserung der Success Rate (SR) von etwa 3 % bei der 3-Schritt-Planung und 2 % bei der 4-Schritt-Planung im Vergleich zum state-of-the-art V-JEPA 2. Projekt-Website: https://steve-zeyu-zhang.github.io/GeoWorld.
English
Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.
PDF44February 28, 2026