HERMES++: Auf dem Weg zu einem einheitlichen Weltmodell für das Fahren zum Verständnis und zur Generierung von 3D-Szenen
HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation
April 30, 2026
Autoren: Xin Zhou, Dingkang Liang, Xiwu Chen, Feiyang Tan, Dingyuan Zhang, Hengshuang Zhao, Xiang Bai
cs.AI
Zusammenfassung
Fahrende Weltmodelle stellen eine zentrale Technologie für das autonome Fahren dar, indem sie die Umgebungsdynamik simulieren. Bisherige Ansätze konzentrieren sich jedoch überwiegend auf die Generierung zukünftiger Szenen und vernachlässigen oft ein umfassendes 3D-Szenenverständnis. Während Large Language Models (LLMs) wiederum beeindruckende Fähigkeiten im logischen Schlussfolgern demonstrieren, fehlt ihnen die Kapazität, die zukünftige geometrische Entwicklung vorherzusagen, was eine erhebliche Diskrepanz zwischen semantischer Interpretation und physikalischer Simulation schafft. Um diese Lücke zu schließen, schlagen wir HERMES++ vor, ein vereinheitlichtes fahrendes Weltmodell, das 3D-Szenenverständnis und die Vorhersage zukünftiger Geometrie in einem einzigen Framework integriert. Unser Ansatz adressiert die unterschiedlichen Anforderungen dieser Aufgaben durch synergetische Designs. Erstens konsolidiert eine BEV-Repräsentation räumliche Informationen aus mehreren Blickwinkeln in eine Struktur, die mit LLMs kompatibel ist. Zweitens führen wir LLM-verstärkte Welt-Abfragen ein, um den Wissenstransfer vom Verständniszweig zu erleichtern. Drittens wird eine Current-to-Future-Verbindung (Gegenwart-Zukunft-Verbindung) entwickelt, um die zeitliche Lücke zu überbrücken und die geometrische Evolution auf den semantischen Kontext zu konditionieren. Schließlich setzen wir eine Strategie zur gemeinsamen geometrischen Optimierung ein, die explizite geometrische Zwänge mit impliziter latenter Regularisierung integriert, um interne Repräsentationen mit geometriebewussten Priors in Einklang zu bringen. Umfangreiche Auswertungen auf mehreren Benchmarks validieren die Wirksamkeit unserer Methode. HERMES++ erzielt eine hohe Leistung und übertrifft spezialisierte Ansätze sowohl bei der Vorhersage zukünftiger Punktwolken als auch bei 3D-Szenenverständnisaufgaben. Das Modell und der Code werden unter https://github.com/H-EmbodVis/HERMESV2 öffentlich zugänglich gemacht.
English
Driving world models serve as a pivotal technology for autonomous driving by simulating environmental dynamics. However, existing approaches predominantly focus on future scene generation, often overlooking comprehensive 3D scene understanding. Conversely, while Large Language Models (LLMs) demonstrate impressive reasoning capabilities, they lack the capacity to predict future geometric evolution, creating a significant disparity between semantic interpretation and physical simulation. To bridge this gap, we propose HERMES++, a unified driving world model that integrates 3D scene understanding and future geometry prediction within a single framework. Our approach addresses the distinct requirements of these tasks through synergistic designs. First, a BEV representation consolidates multi-view spatial information into a structure compatible with LLMs. Second, we introduce LLM-enhanced world queries to facilitate knowledge transfer from the understanding branch. Third, a Current-to-Future Link is designed to bridge the temporal gap, conditioning geometric evolution on semantic context. Finally, to enforce structural integrity, we employ a Joint Geometric Optimization strategy that integrates explicit geometric constraints with implicit latent regularization to align internal representations with geometry-aware priors. Extensive evaluations on multiple benchmarks validate the effectiveness of our method. HERMES++ achieves strong performance, outperforming specialist approaches in both future point cloud prediction and 3D scene understanding tasks. The model and code will be publicly released at https://github.com/H-EmbodVis/HERMESV2.