HERMES++: Hacia un Modelo Mundial de Conducción Unificado para la Comprensión y Generación de Escenas 3D

Resumen

Los modelos de mundo de conducción constituyen una tecnología fundamental para la conducción autónoma al simular la dinámica ambiental. Sin embargo, los enfoques existentes se centran predominantemente en la generación de escenas futuras, frecuentemente descuidando una comprensión integral de la escena 3D. Por otro lado, si bien los Modelos de Lenguaje a Gran Escala (LLMs) demuestran capacidades de razonamiento impresionantes, carecen de la capacidad para predecir la evolución geométrica futura, creando una disparidad significativa entre la interpretación semántica y la simulación física. Para cerrar esta brecha, proponemos HERMES++, un modelo de mundo de conducción unificado que integra la comprensión de escenas 3D y la predicción de geometría futura dentro de un único marco. Nuestro enfoque aborda los requisitos distintos de estas tareas mediante diseños sinérgicos. Primero, una representación BEV consolida la información espacial multivista en una estructura compatible con los LLMs. Segundo, introducimos consultas de mundo potenciadas por LLMs para facilitar la transferencia de conocimiento desde la rama de comprensión. Tercero, se diseña un Enlace Presente-a-Futuro para salvar la brecha temporal, condicionando la evolución geométrica al contexto semántico. Finalmente, para garantizar la integridad estructural, empleamos una estrategia de Optimización Geométrica Conjunta que integra restricciones geométricas explícitas con regularización latente implícita para alinear las representaciones internas con distribuciones a priori conscientes de la geometría. Evaluaciones exhaustivas en múltiples benchmarks validan la efectividad de nuestro método. HERMES++ logra un rendimiento sólido, superando a enfoques especializados tanto en la predicción de nubes de puntos futuras como en tareas de comprensión de escenas 3D. El modelo y el código se publicarán en https://github.com/H-EmbodVis/HERMESV2.

English

Driving world models serve as a pivotal technology for autonomous driving by simulating environmental dynamics. However, existing approaches predominantly focus on future scene generation, often overlooking comprehensive 3D scene understanding. Conversely, while Large Language Models (LLMs) demonstrate impressive reasoning capabilities, they lack the capacity to predict future geometric evolution, creating a significant disparity between semantic interpretation and physical simulation. To bridge this gap, we propose HERMES++, a unified driving world model that integrates 3D scene understanding and future geometry prediction within a single framework. Our approach addresses the distinct requirements of these tasks through synergistic designs. First, a BEV representation consolidates multi-view spatial information into a structure compatible with LLMs. Second, we introduce LLM-enhanced world queries to facilitate knowledge transfer from the understanding branch. Third, a Current-to-Future Link is designed to bridge the temporal gap, conditioning geometric evolution on semantic context. Finally, to enforce structural integrity, we employ a Joint Geometric Optimization strategy that integrates explicit geometric constraints with implicit latent regularization to align internal representations with geometry-aware priors. Extensive evaluations on multiple benchmarks validate the effectiveness of our method. HERMES++ achieves strong performance, outperforming specialist approaches in both future point cloud prediction and 3D scene understanding tasks. The model and code will be publicly released at https://github.com/H-EmbodVis/HERMESV2.

HERMES++: Hacia un Modelo Mundial de Conducción Unificado para la Comprensión y Generación de Escenas 3D

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Resumen

Support