NuRisk: 자율주행에서 에이전트 수준 위험 평가를 위한 시각적 질의응답 데이터셋
NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving
September 30, 2025
저자: Yuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz
cs.AI
초록
자율주행에서의 위험을 이해하기 위해서는 단순한 인식과 예측뿐만 아니라, 에이전트의 행동과 상황에 대한 고차원적 추론이 필요합니다. 현재의 시각-언어 모델(VLM) 기반 방법들은 주로 정적 이미지에 기반하여 에이전트를 이해하고 질적 판단을 제공하지만, 시간에 따라 변화하는 위험을 포착하기 위한 시공간적 추론 능력이 부족합니다. 이러한 격차를 해결하기 위해, 우리는 NuRisk라는 포괄적인 시각 질의응답(VQA) 데이터셋을 제안합니다. 이 데이터셋은 nuScenes와 Waymo의 실제 데이터를 기반으로 하며, CommonRoad 시뮬레이터의 안전-중요 시나리오를 보완하여 총 2,900개의 시나리오와 110만 개의 에이전트 수준 샘플로 구성됩니다. 이 데이터셋은 Bird-Eye-View(BEV) 기반의 순차적 이미지와 정량적, 에이전트 수준의 위험 주석을 제공하여 시공간적 추론을 가능하게 합니다. 우리는 다양한 프롬프트 기법을 통해 잘 알려진 VLM들을 벤치마킹한 결과, 이들이 명시적인 시공간적 추론을 수행하지 못해 높은 지연 시간에서 최대 33%의 정확도를 보임을 확인했습니다. 이러한 한계를 극복하기 위해, 우리가 미세 조정한 7B VLM 에이전트는 정확도를 41%로 향상시키고 지연 시간을 75% 줄여, 독점 모델들이 부족했던 명시적인 시공간적 추론 능력을 입증했습니다. 이는 중요한 진전을 나타내지만, 상대적으로 낮은 정확도는 이 과제의 심오한 난이도를 강조하며, NuRisk가 자율주행에서의 시공간적 추론 발전을 위한 중요한 벤치마크로 자리매김함을 보여줍니다.
English
Understanding risk in autonomous driving requires not only perception and
prediction, but also high-level reasoning about agent behavior and context.
Current Vision Language Models (VLMs)-based methods primarily ground agents in
static images and provide qualitative judgments, lacking the spatio-temporal
reasoning needed to capture how risks evolve over time. To address this gap, we
propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset
comprising 2,900 scenarios and 1.1 million agent-level samples, built on
real-world data from nuScenes and Waymo, supplemented with safety-critical
scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View
(BEV) based sequential images with quantitative, agent-level risk annotations,
enabling spatio-temporal reasoning. We benchmark well-known VLMs across
different prompting techniques and find that they fail to perform explicit
spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency.
To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to
41% and reduces latency by 75%, demonstrating explicit spatio-temporal
reasoning capabilities that proprietary models lacked. While this represents a
significant step forward, the modest accuracy underscores the profound
challenge of the task, establishing NuRisk as a critical benchmark for
advancing spatio-temporal reasoning in autonomous driving.