De Segmentos a Escenas: Comprensión Temporal en Conducción Autónoma mediante Modelos de Visión y Lenguaje
From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model
December 4, 2025
Autores: Kevin Cannons, Saeed Ranjbar Alvar, Mohammad Asiful Hossain, Ahmad Rezaei, Mohsen Gholami, Alireza Heidarikhazaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI
Resumen
La comprensión temporal en la conducción autónoma (CA) sigue siendo un desafío significativo, incluso para los modelos de visión y lenguaje (VLM) más avanzados. Trabajos previos han introducido conjuntos de datos y puntos de referencia destinados a mejorar el razonamiento temporal, pero estos se han centrado en otros contenidos de video, como deportes, cocina y películas. Ningún punto de referencia existente se enfoca exclusivamente en los desafíos únicos de la comprensión temporal en secuencias de CA egocéntricas. Para llenar este vacío, se presenta el punto de referencia Temporal Understanding in Autonomous Driving (TAD), que evalúa la capacidad de los VLM para capturar las relaciones dinámicas entre acciones en la CA. TAD comprende casi 6,000 pares de preguntas y respuestas, que abarcan 7 tareas diseñadas por humanos. Además, se realiza una evaluación que incluye 9 modelos generalistas, tanto de código abierto como privativo, así como modelos especializados en CA de última generación. Cuando se aplicó a TAD, los modelos actuales más avanzados mostraron precisiones deficientes, principalmente debido a una comprensión imperfecta del movimiento a nivel fino. Para mejorar la comprensión del movimiento y la precisión general en TAD, se proponen dos soluciones novedosas que no requieren entrenamiento: Scene-CoT, que aprovecha el razonamiento en cadena (Chain-of-Thought, CoT), y TCogMap, que incorpora un mapa cognitivo temporal egocéntrico. Los enfoques propuestos se integran con VLM existentes y mejoran la precisión promedio en TAD hasta en un 17.72%. Al introducir TAD, evaluar múltiples modelos de última generación y proponer mejoras efectivas, este trabajo pretende catalizar la investigación futura sobre la comprensión temporal en la CA. El punto de referencia y el código de evaluación están disponibles en https://huggingface.co/datasets/vbdai/TAD y https://github.com/vbdi/tad_bench, respectivamente.
English
Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at https://huggingface.co/datasets/vbdai/TAD{Hugging Face} and https://github.com/vbdi/tad_bench{Github}, respectively.