Des segments aux scènes : compréhension temporelle dans la conduite autonome via un modèle vision-langage
From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model
December 4, 2025
papers.authors: Kevin Cannons, Saeed Ranjbar Alvar, Mohammad Asiful Hossain, Ahmad Rezaei, Mohsen Gholami, Alireza Heidarikhazaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI
papers.abstract
La compréhension temporelle dans la conduite autonome reste un défi majeur, même pour les modèles état-de-l'art récents combinant vision et langage. Les travaux antérieurs ont introduit des jeux de données et des benchmarks visant à améliorer le raisonnement temporel, mais ceux-ci ont privilégié d'autres contenus vidéo, tels que le sport, la cuisine et les films. Aucun benchmark existant ne se concentre exclusivement sur les défis uniques de la compréhension temporelle dans les séquences égocentriques de conduite autonome. Pour combler cette lacune, le benchmark TAD (Temporal Understanding in Autonomous Driving) est présenté, évaluant la capacité des modèles vision-langage à capturer les relations dynamiques entre les actions en conduite autonome. TAD comprend près de 6 000 paires question-réponse, couvrant 7 tâches conçues par des experts humains. Une évaluation est réalisée sur 9 modèles généralistes open-source et privés, ainsi que sur des modèles spécialisés état-de-l'art en conduite autonome. Appliqués à TAD, les modèles état-de-l'art actuels démontrent des précisions inférieures aux standards, principalement en raison d'une compréhension imparfaite du mouvement à granularité fine. Pour améliorer la compréhension du mouvement et la précision globale sur TAD, deux solutions novatrices sans apprentissage sont proposées : Scene-CoT, qui exploite le raisonnement en chaîne, et TCogMap, qui intègre une carte cognitive temporelle égocentrique. Les approches proposées sont intégrées à des modèles vision-langage existants et améliorent la précision moyenne sur TAD jusqu'à 17,72%. En introduisant TAD, en évaluant plusieurs modèles état-de-l'art et en proposant des améliorations efficaces, ce travail vise à catalyser les recherches futures sur la compréhension temporelle en conduite autonome. Le benchmark et le code d'évaluation sont disponibles respectivement sur https://huggingface.co/datasets/vbdai/TAD et https://github.com/vbdi/tad_bench.
English
Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at https://huggingface.co/datasets/vbdai/TAD{Hugging Face} and https://github.com/vbdi/tad_bench{Github}, respectively.