ChatPaper.aiChatPaper

Von Segmenten zu Szenen: Zeitliches Verständnis im autonomen Fahren durch Vision-Language-Modelle

From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model

December 4, 2025
papers.authors: Kevin Cannons, Saeed Ranjbar Alvar, Mohammad Asiful Hossain, Ahmad Rezaei, Mohsen Gholami, Alireza Heidarikhazaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI

papers.abstract

Das zeitliche Verständnis im autonomen Fahren (AD) stellt nach wie vor eine große Herausforderung dar, selbst für moderne state-of-the-art (SoTA) Vision-Language-Modelle (VLMs). Bisherige Arbeiten haben Datensätze und Benchmarks eingeführt, die eine Verbesserung des temporalen Schlussfolgerns zum Ziel haben, konzentrierten sich dabei jedoch auf andere Videoinhalte wie Sport, Kochen und Filme. Es existiert kein Benchmark, der sich ausschließlich den einzigartigen Herausforderungen des temporalen Verständnisses in egozentrischem AD-Material widmet. Um diese Lücke zu schließen, wird der Benchmark für Temporales Verständnis im Autonomen Fahren (TAD) vorgestellt, der die Fähigkeit von VLMs bewertet, die dynamischen Beziehungen zwischen Aktionen im AD zu erfassen. TAD umfasst fast 6.000 Frage-Antwort-Paare, die sich über 7 von Menschen entworfenen Aufgaben erstrecken. Zusätzlich wird eine Evaluation durchgeführt, die 9 generische Modelle (sowohl Open-Source als auch proprietäre) sowie SoTA-spezialisierte AD-Modelle umfasst. Bei der Anwendung auf TAD zeigten aktuelle SoTA-Modelle unzureichende Genauigkeiten, was größtenteils auf ein unvollständiges feinkörniges Bewegungsverständnis zurückzuführen ist. Um das Bewegungsverständnis und die Gesamtgenauigkeit auf TAD zu verbessern, werden zwei neuartige trainingsfreie Lösungen vorgeschlagen: Scene-CoT, das Chain-of-Thought (CoT) nutzt, und TCogMap, das eine egozentrische temporale kognitive Karte integriert. Die vorgeschlagenen Ansätze werden in bestehende VLMs integriert und verbessern die durchschnittliche Genauigkeit auf TAD um bis zu 17,72 %. Durch die Einführung von TAD, das Benchmarking mehrerer SoTA-Modelle und das Vorschlagen effektiver Verbesserungen zielt diese Arbeit darauf ab, zukünftige Forschung zum temporalen Verständnis im AD zu beschleunigen. Der Benchmark und der Evaluierungscode sind verfügbar unter https://huggingface.co/datasets/vbdai/TAD bzw. https://github.com/vbdi/tad_bench.
English
Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at https://huggingface.co/datasets/vbdai/TAD{Hugging Face} and https://github.com/vbdi/tad_bench{Github}, respectively.
PDF42December 9, 2025