ChatPaper.aiChatPaper

От сегментов к сценам: временное понимание в автономном вождении с помощью модели «визуальный язык»

From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model

December 4, 2025
Авторы: Kevin Cannons, Saeed Ranjbar Alvar, Mohammad Asiful Hossain, Ahmad Rezaei, Mohsen Gholami, Alireza Heidarikhazaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
cs.AI

Аннотация

Временное понимание в автономном вождении (АВ) остается серьезной проблемой даже для современных передовых Vision-Language Models (VLM). Предыдущие работы представили наборы данных и бенчмарки, направленные на улучшение временного анализа, но они были сосредоточены на другом видеоконтенте, включая спорт, кулинарию и фильмы. Не существует ни одного бенчмарка, который бы целенаправленно рассматривал уникальные проблемы временного понимания в эгоцентричных видеоданных АВ. Чтобы восполнить этот пробел, представлен бенчмарк Temporal Understanding in Autonomous Driving (TAD), который оценивает способность VLM улавливать динамические взаимосвязи между действиями в АВ. TAD включает почти 6000 пар «вопрос-ответ», охватывающих 7 задач, разработанных человеком. Кроме того, проводится оценка, включающая 9 общедоступных и проприетарных моделей-универсалов, а также передовых специализированных моделей для АВ. При применении к TAD современные передовые модели показали неудовлетворительную точность, в основном из-за несовершенного понимания мелкомасштабных движений. Для улучшения понимания движения и общей точности на TAD предложены два новых решения, не требующих обучения: Scene-CoT, использующий цепочку рассуждений (Chain-of-Thought, CoT), и TCogMap, который включает эгоцентричную временную когнитивную карту. Предложенные подходы интегрированы с существующими VLM и повышают среднюю точность на TAD до 17,72%. Вводя TAD, тестируя множество передовых моделей и предлагая эффективные улучшения, данная работа направлена на стимулирование будущих исследований в области временного понимания в АВ. Бенчмарк и код для оценки доступны по адресам https://huggingface.co/datasets/vbdai/TAD и https://github.com/vbdi/tad_bench соответственно.
English
Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at https://huggingface.co/datasets/vbdai/TAD{Hugging Face} and https://github.com/vbdi/tad_bench{Github}, respectively.
PDF42December 9, 2025