NAVSIM: Simulación y Evaluación de Vehículos Autónomos No Reactivos Basada en Datos

Resumen

Evaluar políticas de conducción basadas en visión es un desafío. Por un lado, la evaluación en bucle abierto con datos reales es sencilla, pero estos resultados no reflejan el rendimiento en bucle cerrado. Por otro lado, la evaluación en bucle cerrado es posible en simulación, pero es difícil de escalar debido a sus significativas demandas computacionales. Además, los simuladores disponibles actualmente presentan una gran brecha de dominio con respecto a los datos reales. Esto ha resultado en la incapacidad de sacar conclusiones claras del creciente cuerpo de investigación sobre conducción autónoma de extremo a extremo. En este artículo, presentamos NAVSIM, un punto intermedio entre estos paradigmas de evaluación, donde utilizamos grandes conjuntos de datos en combinación con un simulador no reactivo para permitir la evaluación a gran escala en el mundo real. Específicamente, recopilamos métricas basadas en simulación, como el progreso y el tiempo hasta la colisión, desplegando abstracciones de vista aérea de las escenas de prueba para un horizonte de simulación corto. Nuestra simulación es no reactiva, es decir, la política evaluada y el entorno no se influyen mutuamente. Como demostramos empíricamente, este desacoplamiento permite el cálculo de métricas en bucle abierto mientras se alinea mejor con las evaluaciones en bucle cerrado que los errores de desplazamiento tradicionales. NAVSIM permitió una nueva competencia celebrada en CVPR 2024, donde 143 equipos presentaron 463 entradas, lo que resultó en varios nuevos hallazgos. En un gran conjunto de escenarios desafiantes, observamos que métodos simples con requisitos computacionales moderados, como TransFuser, pueden igualar arquitecturas recientes de conducción de extremo a extremo a gran escala, como UniAD. Nuestro marco modular puede extenderse potencialmente con nuevos conjuntos de datos, estrategias de curación de datos y métricas, y se mantendrá continuamente para albergar futuros desafíos. Nuestro código está disponible en https://github.com/autonomousvision/navsim.

English

Benchmarking vision-based driving policies is challenging. On one hand, open-loop evaluation with real data is easy, but these results do not reflect closed-loop performance. On the other, closed-loop evaluation is possible in simulation, but is hard to scale due to its significant computational demands. Further, the simulators available today exhibit a large domain gap to real data. This has resulted in an inability to draw clear conclusions from the rapidly growing body of research on end-to-end autonomous driving. In this paper, we present NAVSIM, a middle ground between these evaluation paradigms, where we use large datasets in combination with a non-reactive simulator to enable large-scale real-world benchmarking. Specifically, we gather simulation-based metrics, such as progress and time to collision, by unrolling bird's eye view abstractions of the test scenes for a short simulation horizon. Our simulation is non-reactive, i.e., the evaluated policy and environment do not influence each other. As we demonstrate empirically, this decoupling allows open-loop metric computation while being better aligned with closed-loop evaluations than traditional displacement errors. NAVSIM enabled a new competition held at CVPR 2024, where 143 teams submitted 463 entries, resulting in several new insights. On a large set of challenging scenarios, we observe that simple methods with moderate compute requirements such as TransFuser can match recent large-scale end-to-end driving architectures such as UniAD. Our modular framework can potentially be extended with new datasets, data curation strategies, and metrics, and will be continually maintained to host future challenges. Our code is available at https://github.com/autonomousvision/navsim.

NAVSIM: Simulación y Evaluación de Vehículos Autónomos No Reactivos Basada en Datos

NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking

Resumen

Support