Cenários de Condução em Cauda Longa com Rastros de Raciocínio: O Conjunto de Dados KITScenes LongTail
LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset
March 24, 2026
Autores: Royden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller
cs.AI
Resumo
Em domínios do mundo real, como a condução autónoma, a generalização para cenários raros continua a ser um desafio fundamental. Para enfrentar este problema, introduzimos um novo conjunto de dados concebido para condução de ponta a ponta que se concentra em eventos de condução de cauda longa. Fornecemos dados de vídeo multi-perspetiva, trajetórias, instruções de alto nível e rastos de raciocínio detalhados, facilitando a aprendizagem contextual e a generalização com poucos exemplos. O *benchmark* resultante para modelos multimodais, como VLMs e VLAs, vai além das métricas de segurança e conforto, avaliando o seguimento de instruções e a coerência semântica entre as saídas dos modelos. Os rastos de raciocínio multilingues em inglês, espanhol e chinês provêm de especialistas de domínio com origens culturais diversas. Assim, o nosso conjunto de dados constitui um recurso único para estudar como diferentes formas de raciocínio afetam a competência de condução. O nosso conjunto de dados está disponível em: https://hf.co/datasets/kit-mrt/kitscenes-longtail
English
In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at: https://hf.co/datasets/kit-mrt/kitscenes-longtail