ChatPaper.aiChatPaper

セグメントからシーンへ:視覚言語モデルによる自律走行の時間的理解

From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model

December 4, 2025
著者: Kevin Cannons, Saeed Ranjbar Alvar, Mohammad Asiful Hossain, Ahmad Rezaei, Mohsen Gholami, Alireza Heidarikhazaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI

要旨

自動運転(AD)における時間的理解は、最新の最先端(SoTA)視覚言語モデル(VLM)にとっても依然として大きな課題である。これまでに時間的推論の向上を目的としたデータセットやベンチマークが導入されてきたが、それらはスポーツ、料理、映画などの他の映像コンテンツに重点を置いてきた。エゴセントリックなAD映像における時間的理解の特有の課題に特化した既存のベンチマークは存在しない。このギャップを埋めるため、ADにおける時間的理解(TAD)ベンチマークを提案する。これは、AD内のアクション間の動的関係を捉えるVLMの能力を評価する。TADは、人間が設計した7つのタスクにまたがる約6,000の質問応答(QA)ペアで構成される。さらに、9つのクローズドソースおよびオープンソースの汎用モデルと、SoTAのAD特化モデルからなる評価を実施した。TADに適用した場合、現在のSoTAモデルは標準以下の精度を示し、その主な原因は微細な動きの理解の不備にあることがわかった。動きの理解とTADにおける全体的な精度を向上させるため、新たな訓練不要の解決策を2つ提案する:思考の連鎖(CoT)を活用するScene-CoTと、エゴセントリックな時間的認知地図を組み込んだTCogMapである。提案手法を既存のVLMと統合することで、TADにおける平均精度を最大17.72%向上させた。TADの導入、複数のSoTAモデルのベンチマーク評価、および効果的な拡張手法の提案を通じて、本研究はADにおける時間的理解に関する将来の研究を促進することを目指している。ベンチマークと評価コードは、それぞれhttps://huggingface.co/datasets/vbdai/TAD{Hugging Face} と https://github.com/vbdi/tad_bench{Github} で公開されている。
English
Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at https://huggingface.co/datasets/vbdai/TAD{Hugging Face} and https://github.com/vbdi/tad_bench{Github}, respectively.
PDF42December 9, 2025