推論トレース付きロングテイル運転シナリオ:KITScenesロングテイルデータセット
LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset
March 24, 2026
著者: Royden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller
cs.AI
要旨
自動運転などの実世界領域では、稀なシナリオへの汎化が依然として根本的な課題です。この課題に対処するため、ロングテールな運転イベントに焦点を当てたエンドツーエンド運転向けの新しいデータセットを提案します。マルチビュー映像データ、軌跡、高レベルな指示、詳細な推論トレースを提供し、文脈内学習と少数ショット汎化を促進します。VLMやVLAなどのマルチモーダルモデル向けに構築されたベンチマークは、安全性や快適性の指標を超えて、指示追従性とモデル出力間の意味的一貫性を評価します。英語、スペイン語、中国語による多言語の推論トレースは、多様な文化的背景を持つドメイン専門家によって作成されました。したがって、本データセットは異なる形式の推論が運転能力に与える影響を研究するための独自のリソースとなります。データセットは以下で公開されています:https://hf.co/datasets/kit-mrt/kitscenes-longtail
English
In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at: https://hf.co/datasets/kit-mrt/kitscenes-longtail