GeoDrive: Modelo del Mundo de Conducción Informado por Geometría 3D con Control de Acción Preciso
GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control
May 28, 2025
Autores: Anthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shanghang Zhang
cs.AI
Resumen
Los recientes avances en modelos del mundo han revolucionado la simulación de entornos dinámicos, permitiendo a los sistemas prever estados futuros y evaluar acciones potenciales. En la conducción autónoma, estas capacidades ayudan a los vehículos a anticipar el comportamiento de otros usuarios de la vía, realizar planificación consciente del riesgo, acelerar el entrenamiento en simulación y adaptarse a escenarios novedosos, mejorando así la seguridad y la fiabilidad. Los enfoques actuales presentan deficiencias en el mantenimiento de una consistencia geométrica 3D robusta o en la acumulación de artefactos durante el manejo de oclusiones, ambos aspectos críticos para una evaluación de seguridad confiable en tareas de navegación autónoma. Para abordar esto, presentamos GeoDrive, que integra explícitamente condiciones geométricas 3D robustas en los modelos del mundo de conducción para mejorar la comprensión espacial y la controlabilidad de las acciones. Específicamente, primero extraemos una representación 3D del fotograma de entrada y luego obtenemos su representación 2D basada en la trayectoria del vehículo ego especificada por el usuario. Para habilitar el modelado dinámico, proponemos un módulo de edición dinámica durante el entrenamiento para mejorar las representaciones editando las posiciones de los vehículos. Experimentos extensivos demuestran que nuestro método supera significativamente a los modelos existentes tanto en precisión de acciones como en conciencia espacial 3D, lo que conduce a un modelado de escenas más realista, adaptable y confiable para una conducción autónoma más segura. Además, nuestro modelo puede generalizar a trayectorias novedosas y ofrece capacidades interactivas de edición de escenas, como la edición de objetos y el control de trayectorias de objetos.
English
Recent advancements in world models have revolutionized dynamic environment
simulation, allowing systems to foresee future states and assess potential
actions. In autonomous driving, these capabilities help vehicles anticipate the
behavior of other road users, perform risk-aware planning, accelerate training
in simulation, and adapt to novel scenarios, thereby enhancing safety and
reliability. Current approaches exhibit deficiencies in maintaining robust 3D
geometric consistency or accumulating artifacts during occlusion handling, both
critical for reliable safety assessment in autonomous navigation tasks. To
address this, we introduce GeoDrive, which explicitly integrates robust 3D
geometry conditions into driving world models to enhance spatial understanding
and action controllability. Specifically, we first extract a 3D representation
from the input frame and then obtain its 2D rendering based on the
user-specified ego-car trajectory. To enable dynamic modeling, we propose a
dynamic editing module during training to enhance the renderings by editing the
positions of the vehicles. Extensive experiments demonstrate that our method
significantly outperforms existing models in both action accuracy and 3D
spatial awareness, leading to more realistic, adaptable, and reliable scene
modeling for safer autonomous driving. Additionally, our model can generalize
to novel trajectories and offers interactive scene editing capabilities, such
as object editing and object trajectory control.Summary
AI-Generated Summary