ChatPaper.aiChatPaper

GeoDrive: 정밀한 행동 제어가 가능한 3D 기하학 정보 기반 주행 세계 모델

GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

May 28, 2025
저자: Anthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shanghang Zhang
cs.AI

초록

최근 월드 모델의 발전은 동적 환경 시뮬레이션에 혁신을 가져와 시스템이 미래 상태를 예측하고 잠재적 행동을 평가할 수 있게 하였습니다. 자율 주행 분야에서 이러한 기능은 차량이 다른 도로 사용자의 행동을 예측하고, 위험 인식 계획을 수행하며, 시뮬레이션에서의 훈련 속도를 가속화하고, 새로운 시나리오에 적응함으로써 안전성과 신뢰성을 향상시킵니다. 현재의 접근법들은 강력한 3D 기하학적 일관성을 유지하거나 가림 처리 과정에서 아티팩트가 누적되는 데 있어 결함을 보이며, 이는 자율 주행 작업에서 신뢰할 수 있는 안전 평가에 중요한 요소입니다. 이를 해결하기 위해, 우리는 GeoDrive를 소개합니다. 이는 강력한 3D 기하학적 조건을 주행 월드 모델에 명시적으로 통합하여 공간 이해와 행동 제어 가능성을 향상시킵니다. 구체적으로, 우리는 먼저 입력 프레임에서 3D 표현을 추출한 후 사용자 지정 자동차 궤적에 기반하여 2D 렌더링을 얻습니다. 동적 모델링을 가능하게 하기 위해, 우리는 훈련 중에 차량의 위치를 편집하여 렌더링을 강화하는 동적 편집 모듈을 제안합니다. 광범위한 실험을 통해 우리의 방법이 행동 정확도와 3D 공간 인식 모두에서 기존 모델을 크게 능가하며, 더 현실적이고 적응 가능하며 신뢰할 수 있는 장면 모델링을 통해 더 안전한 자율 주행을 이끌어냄을 입증했습니다. 또한, 우리의 모델은 새로운 궤적에 일반화될 수 있으며, 객체 편집 및 객체 궤적 제어와 같은 인터랙티브 장면 편집 기능을 제공합니다.
English
Recent advancements in world models have revolutionized dynamic environment simulation, allowing systems to foresee future states and assess potential actions. In autonomous driving, these capabilities help vehicles anticipate the behavior of other road users, perform risk-aware planning, accelerate training in simulation, and adapt to novel scenarios, thereby enhancing safety and reliability. Current approaches exhibit deficiencies in maintaining robust 3D geometric consistency or accumulating artifacts during occlusion handling, both critical for reliable safety assessment in autonomous navigation tasks. To address this, we introduce GeoDrive, which explicitly integrates robust 3D geometry conditions into driving world models to enhance spatial understanding and action controllability. Specifically, we first extract a 3D representation from the input frame and then obtain its 2D rendering based on the user-specified ego-car trajectory. To enable dynamic modeling, we propose a dynamic editing module during training to enhance the renderings by editing the positions of the vehicles. Extensive experiments demonstrate that our method significantly outperforms existing models in both action accuracy and 3D spatial awareness, leading to more realistic, adaptable, and reliable scene modeling for safer autonomous driving. Additionally, our model can generalize to novel trajectories and offers interactive scene editing capabilities, such as object editing and object trajectory control.

Summary

AI-Generated Summary

PDF113May 30, 2025