GeoDrive : Modèle du monde de conduite informé par la géométrie 3D avec contrôle d'action précis
GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control
May 28, 2025
Auteurs: Anthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shanghang Zhang
cs.AI
Résumé
Les récentes avancées dans les modèles du monde ont révolutionné la simulation d'environnements dynamiques, permettant aux systèmes de prévoir les états futurs et d'évaluer les actions potentielles. Dans le domaine de la conduite autonome, ces capacités aident les véhicules à anticiper le comportement des autres usagers de la route, à effectuer une planification tenant compte des risques, à accélérer l'entraînement en simulation et à s'adapter à des scénarios nouveaux, améliorant ainsi la sécurité et la fiabilité. Les approches actuelles présentent des lacunes dans le maintien d'une cohérence géométrique 3D robuste ou dans l'accumulation d'artefacts lors de la gestion des occlusions, deux aspects critiques pour une évaluation fiable de la sécurité dans les tâches de navigation autonome. Pour remédier à cela, nous introduisons GeoDrive, qui intègre explicitement des conditions de géométrie 3D robuste dans les modèles du monde de conduite afin d'améliorer la compréhension spatiale et la contrôlabilité des actions. Plus précisément, nous extrayons d'abord une représentation 3D à partir de l'image d'entrée, puis nous obtenons son rendu 2D basé sur la trajectoire de l'ego-véhicule spécifiée par l'utilisateur. Pour permettre une modélisation dynamique, nous proposons un module d'édition dynamique pendant l'entraînement afin d'améliorer les rendus en modifiant les positions des véhicules. Des expériences approfondies démontrent que notre méthode surpasse significativement les modèles existants à la fois en précision des actions et en conscience spatiale 3D, conduisant à une modélisation de scène plus réaliste, adaptable et fiable pour une conduite autonome plus sûre. De plus, notre modèle peut généraliser à de nouvelles trajectoires et offre des capacités d'édition interactive de la scène, telles que l'édition d'objets et le contrôle des trajectoires d'objets.
English
Recent advancements in world models have revolutionized dynamic environment
simulation, allowing systems to foresee future states and assess potential
actions. In autonomous driving, these capabilities help vehicles anticipate the
behavior of other road users, perform risk-aware planning, accelerate training
in simulation, and adapt to novel scenarios, thereby enhancing safety and
reliability. Current approaches exhibit deficiencies in maintaining robust 3D
geometric consistency or accumulating artifacts during occlusion handling, both
critical for reliable safety assessment in autonomous navigation tasks. To
address this, we introduce GeoDrive, which explicitly integrates robust 3D
geometry conditions into driving world models to enhance spatial understanding
and action controllability. Specifically, we first extract a 3D representation
from the input frame and then obtain its 2D rendering based on the
user-specified ego-car trajectory. To enable dynamic modeling, we propose a
dynamic editing module during training to enhance the renderings by editing the
positions of the vehicles. Extensive experiments demonstrate that our method
significantly outperforms existing models in both action accuracy and 3D
spatial awareness, leading to more realistic, adaptable, and reliable scene
modeling for safer autonomous driving. Additionally, our model can generalize
to novel trajectories and offers interactive scene editing capabilities, such
as object editing and object trajectory control.Summary
AI-Generated Summary