HERMES++: К созданию универсальной мировой модели вождения для трехмерного понимания и генерации сцен

Аннотация

Движущие мировые модели служат ключевой технологией для автономного вождения, моделируя динамику окружающей среды. Однако существующие подходы в основном сосредоточены на генерации будущих сцен, часто упуская из виду комплексное 3D-понимание сцены. С другой стороны, хотя большие языковые модели (LLM) демонстрируют впечатляющие способности к рассуждению, они не способны предсказывать будущую геометрическую эволюцию, что создает значительный разрыв между семантической интерпретацией и физическим моделированием. Чтобы устранить этот разрыв, мы предлагаем HERMES++ — унифицированную движущую мировую модель, которая интегрирует 3D-понимание сцены и прогнозирование будущей геометрии в единую структуру. Наш подход решает различные требования этих задач за счет синергетических решений. Во-первых, BEV-представление объединяет многовидовую пространственную информацию в структуру, совместимую с LLM. Во-вторых, мы вводим улучшенные мировые запросы на основе LLM для облегчения передачи знаний от ветви понимания. В-третьих, разработана связь «Настоящее-Будущее» для преодоления временного разрыва, обусловливающая геометрическую эволюцию на основе семантического контекста. Наконец, для обеспечения структурной целостности мы используем стратегию совместной геометрической оптимизации, которая интегрирует явные геометрические ограничения с неявной латентной регуляризацией для согласования внутренних представлений с геометрически осведомленными априорными данными. Обширные оценки на нескольких бенчмарках подтверждают эффективность нашего метода. HERMES++ демонстрирует высокую производительность, превосходя специализированные подходы как в прогнозировании будущих облаков точек, так и в задачах 3D-понимания сцены. Модель и код будут публично доступны по адресу https://github.com/H-EmbodVis/HERMESV2.

English

Driving world models serve as a pivotal technology for autonomous driving by simulating environmental dynamics. However, existing approaches predominantly focus on future scene generation, often overlooking comprehensive 3D scene understanding. Conversely, while Large Language Models (LLMs) demonstrate impressive reasoning capabilities, they lack the capacity to predict future geometric evolution, creating a significant disparity between semantic interpretation and physical simulation. To bridge this gap, we propose HERMES++, a unified driving world model that integrates 3D scene understanding and future geometry prediction within a single framework. Our approach addresses the distinct requirements of these tasks through synergistic designs. First, a BEV representation consolidates multi-view spatial information into a structure compatible with LLMs. Second, we introduce LLM-enhanced world queries to facilitate knowledge transfer from the understanding branch. Third, a Current-to-Future Link is designed to bridge the temporal gap, conditioning geometric evolution on semantic context. Finally, to enforce structural integrity, we employ a Joint Geometric Optimization strategy that integrates explicit geometric constraints with implicit latent regularization to align internal representations with geometry-aware priors. Extensive evaluations on multiple benchmarks validate the effectiveness of our method. HERMES++ achieves strong performance, outperforming specialist approaches in both future point cloud prediction and 3D scene understanding tasks. The model and code will be publicly released at https://github.com/H-EmbodVis/HERMESV2.

HERMES++: К созданию универсальной мировой модели вождения для трехмерного понимания и генерации сцен

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Аннотация

Support