추론 흔적을 포함한 롱테일 주행 시나리오: KITScenes 롱테일 데이터셋
LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset
March 24, 2026
저자: Royden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller
cs.AI
초록
자율주행과 같은 실제 도메인에서는 희귀 시나리오에 대한 일반화가 근본적인 과제로 남아 있습니다. 이를 해결하기 위해 우리는 장기꼬리(long-tail) 주행 이벤트에 초점을 맞춘 종단간(end-to-end) 주행을 위한 새로운 데이터셋을 소개합니다. 우리는 다중 뷰 비디오 데이터, 궤적, 고수준 지시사항, 그리고 상세한 추론 궤적(reasoning traces)을 제공하여 문맥 학습(in-context learning) 및 소샷 일반화(few-shot generalization)를 용이하게 합니다. 그 결과 VLM 및 VLA와 같은 멀티모달 모델을 위한 벤치마크는 안전 및 편안함 지표를 넘어 지시사항 준수 및 모델 출력 간의 의미론적 일관성을 평가합니다. 영어, 스페인어, 중국어로 제공되는 다국어 추론 궤적은 다양한 문화적 배경을 가진 도메인 전문가들로부터 수집되었습니다. 따라서 우리의 데이터셋은 다양한 형태의 추론이 주행 능력에 미치는 영향을 연구하는 데 유일무이한 자원입니다. 우리 데이터셋은 https://hf.co/datasets/kit-mrt/kitscenes-longtail 에서 이용 가능합니다.
English
In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at: https://hf.co/datasets/kit-mrt/kitscenes-longtail