ChatPaper.aiChatPaper

Escenarios de Conducción de Cola Larga con Trazas de Razonamiento: El Conjunto de Datos KITScenes LongTail

LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

March 24, 2026
Autores: Royden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller
cs.AI

Resumen

En dominios del mundo real como la conducción autónoma, la generalización a escenarios raros sigue siendo un desafío fundamental. Para abordar esto, presentamos un nuevo conjunto de datos diseñado para la conducción de extremo a extremo que se centra en eventos de conducción de cola larga. Proporcionamos datos de vídeo multivista, trayectorias, instrucciones de alto nivel y trazas de razonamiento detalladas, facilitando el aprendizaje en contexto y la generalización con pocos ejemplos. El punto de referencia resultante para modelos multimodales, como los Modelos de Lenguaje Visual (VLM) y los Asistentes de Lenguaje Visual (VLA), va más allá de las métricas de seguridad y confort al evaluar el seguimiento de instrucciones y la coherencia semántica entre las salidas del modelo. Las trazas de razonamiento multilingües en inglés, español y chino provienen de expertos en el dominio con diversos antecedentes culturales. Por lo tanto, nuestro conjunto de datos es un recurso único para estudiar cómo diferentes formas de razonamiento afectan la competencia en la conducción. Nuestro conjunto de datos está disponible en: https://hf.co/datasets/kit-mrt/kitscenes-longtail
English
In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at: https://hf.co/datasets/kit-mrt/kitscenes-longtail
PDF122March 31, 2026