ChatPaper.aiChatPaper

세그먼트에서 장면으로: 비전-언어 모델을 통한 자율주행의 시간적 이해

From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model

December 4, 2025
저자: Kevin Cannons, Saeed Ranjbar Alvar, Mohammad Asiful Hossain, Ahmad Rezaei, Mohsen Gholami, Alireza Heidarikhazaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI

초록

자율주행 분야의 시간적 이해는 최근 최첨단 시각-언어 모델(VLM)에게도 여전히 큰 과제로 남아 있습니다. 기존 연구에서는 시간적 추론 능력 향상을 목표로 한 데이터셋과 벤치마크를 도입했지만, 이러한 시도는 스포츠, 요리, 영화 등 다른 영상 콘텐츠에 중점을 두었습니다. 현재까지 에고센트릭(1인칭 시점) 자율주행 영상이 지닌 고유한 시간적 이해 과제에만 집중하는 벤치마크는 존재하지 않았습니다. 이러한 공백을 메우기 위해 자율주행 시간적 이해(TAD) 벤치마크를 제안하며, 이는 VLM이 자율주행 환경에서 동작 간의 동적 관계를 파악하는 능력을 평가합니다. TAD는 인간이 설계한 7가지 과제를 아우르는 약 6,000개의 질문-응답(QA) 쌍으로 구성됩니다. 또한 9개의 오픈소스 및 클로즈드소스 일반-purpose 모델과 최첨단 자율주행 전문 모델에 대한 평가를 수행합니다. TAD에 적용했을 때, 현재 최첨단 모델들은 미세한 동작 이해의 부족으로 인해 기대에 미치지 못하는 정확도를 보였습니다. TAD에서의 동작 이해와 전반적인 정확도를 향상시키기 위해 두 가지 새로운 비학습(non-learning) 기반 해결책을 제안합니다: 사고 연쇄(Chain-of-Thought, CoT)를 활용하는 Scene-CoT와 에고센트릭 시간 인지 지도(temporal cognitive map)를 통합하는 TCogMap입니다. 제안된 방법론을 기존 VLM과 결합하여 TAD 평균 정확도를 최대 17.72%까지 향상시켰습니다. TAD 벤치마크의 도입, 여러 최첨단 모델에 대한 벤치마킹 수행, 그리고 효과적인 개선 방안 제안을 통해, 본 연구는 자율주행 시간적 이해에 관한 향후 연구를 촉진하는 것을 목표로 합니다. 벤치마크 및 평가 코드는 각각 https://huggingface.co/datasets/vbdai/TAD 와 https://github.com/vbdi/tad_bench 에서 이용 가능합니다.
English
Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at https://huggingface.co/datasets/vbdai/TAD{Hugging Face} and https://github.com/vbdi/tad_bench{Github}, respectively.
PDF42December 9, 2025