ChatPaper.aiChatPaper

Длинные хвосты дорожных сценариев с трассировкой рассуждений: Набор данных KITScenes LongTail

LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

March 24, 2026
Авторы: Royden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller
cs.AI

Аннотация

В реальных областях, таких как автономное вождение, обобщение для редких сценариев остается фундаментальной проблемой. Для ее решения мы представляем новый набор данных, разработанный для сквозного управления автомобилем и сфокусированный на событиях с длинным хвостом распределения. Мы предоставляем многовидовые видеоданные, траектории, высокоуровневые инструкции и детализированные трассировки рассуждений, что способствует обучению в контексте и обобщению на основе немногих примеров. Созданный в результате бенчмарк для мультимодальных моделей, таких как VLM и VLA, выходит за рамки метрик безопасности и комфорта, оценивая следование инструкциям и семантическую согласованность выходных данных модели. Многоязычные трассировки рассуждений на английском, испанском и китайском языках получены от экспертов в предметной области с различным культурным бэкграундом. Таким образом, наш набор данных представляет собой уникальный ресурс для изучения того, как различные формы рассуждений влияют на качество вождения. Наш набор данных доступен по адресу: https://hf.co/datasets/kit-mrt/kitscenes-longtail.
English
In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at: https://hf.co/datasets/kit-mrt/kitscenes-longtail
PDF122March 31, 2026