Dai Segmenti alle Scene: Comprensione Temporale nella Guida Autonoma tramite Modelli Visione-Linguaggio
From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model
December 4, 2025
Autori: Kevin Cannons, Saeed Ranjbar Alvar, Mohammad Asiful Hossain, Ahmad Rezaei, Mohsen Gholami, Alireza Heidarikhazaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI
Abstract
La comprensione temporale nella guida autonoma (AD) rimane una sfida significativa, anche per i recenti modelli visione-linguaggio (VLM) all'avanguardia (SoTA). I lavori precedenti hanno introdotto dataset e benchmark mirati a migliorare il ragionamento temporale, ma questi si sono concentrati su altri contenuti video, come sport, cucina e film. Nessun benchmark esistente si concentra esclusivamente sulle sfide uniche della comprensione temporale nei filmati in prospettiva egocentrica della AD. Per colmare questa lacuna, viene presentato il benchmark Temporal Understanding in Autonomous Driving (TAD), che valuta la capacità dei VLM di cogliere le relazioni dinamiche tra le azioni nella AD. TAD comprende quasi 6.000 coppie domanda-risposta (QA), che abbracciano 7 task progettati da esseri umani. Inoltre, viene eseguita una valutazione che include 9 modelli generalisti, open-source e non, oltre a modelli specialisti SoTA per la AD. Quando applicati a TAD, gli attuali modelli SoTA hanno dimostrato accuratezze inferiori agli standard, principalmente a causa di una comprensione imperfetta del movimento a grana fine. Per migliorare la comprensione del movimento e l'accuratezza complessiva su TAD, vengono proposte due nuove soluzioni senza addestramento: Scene-CoT, che sfrutta il ragionamento a catena (Chain-of-Thought, CoT), e TCogMap, che incorpora una mappa cognitiva temporale egocentrica. Gli approcci proposti sono integrati con VLM esistenti e migliorano l'accuratezza media su TAD fino al 17,72%. Introducendo TAD, confrontando più modelli SoTA e proponendo miglioramenti efficaci, questo lavoro mira a catalizzare la futura ricerca sulla comprensione temporale nella AD. Il benchmark e il codice di valutazione sono disponibili rispettivamente su https://huggingface.co/datasets/vbdai/TAD{Hugging Face} e https://github.com/vbdi/tad_bench{Github}.
English
Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at https://huggingface.co/datasets/vbdai/TAD{Hugging Face} and https://github.com/vbdi/tad_bench{Github}, respectively.