ChatPaper.aiChatPaper

Van Segmenten naar Scenes: Temporeel Begrip in Autonoom Rijden via Vision-Language Modellen

From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model

December 4, 2025
Auteurs: Kevin Cannons, Saeed Ranjbar Alvar, Mohammad Asiful Hossain, Ahmad Rezaei, Mohsen Gholami, Alireza Heidarikhazaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI

Samenvatting

Temporeel begrip in autonoom rijden (AD) blijft een aanzienlijke uitdaging, zelfs voor recente state-of-the-art (SoTA) Vision-Language Models (VLMs). Eerder werk introduceerde datasets en benchmarks om temporeel redeneren te verbeteren, maar deze legden de nadruk op andere video-inhoud, zoals sport, koken en films. Geen enkele bestaande benchmark richt zich exclusief op de unieke uitdagingen van temporeel begrip in ego-centrische AD-beelden. Om deze leemte op te vullen, wordt de Temporal Understanding in Autonomous Driving (TAD) benchmark gepresenteerd, die het vermogen van VLMs evalueert om de dynamische relaties tussen acties in AD vast te leggen. TAD omvat bijna 6.000 vraag-antwoord (QA) paren, verspreid over 7 door mensen ontworpen taken. Daarnaast wordt een evaluatie uitgevoerd met 9 algemene modellen, zowel closed- als open-source, evenals SoTA AD-specialistische modellen. Toegepast op TAD toonden huidige SoTA-modellen ondermaatse nauwkeurigheden, grotendeels als gevolg van onvolmaakt fijnmazig bewegingbegrip. Om het bewegingbegrip en de algehele nauwkeurigheid op TAD te verbeteren, worden twee nieuwe trainingsvrije oplossingen voorgesteld: Scene-CoT, dat gebruikmaakt van Chain-of-Thought (CoT), en TCogMap, dat een ego-centrische temporele cognitieve kaart integreert. De voorgestelde benaderingen worden geïntegreerd met bestaande VLMs en verbeteren de gemiddelde nauwkeurigheid op TAD met tot 17,72%. Door TAD te introduceren, meerdere SoTA-modellen te benchmarken en effectieve verbeteringen voor te stellen, beoogt dit werk toekomstig onderzoek naar temporeel begrip in AD te katalyseren. De benchmark en evaluatiecode zijn respectievelijk beschikbaar op https://huggingface.co/datasets/vbdai/TAD{Hugging Face} en https://github.com/vbdi/tad_bench{Github}.
English
Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at https://huggingface.co/datasets/vbdai/TAD{Hugging Face} and https://github.com/vbdi/tad_bench{Github}, respectively.
PDF42December 9, 2025