De Segmentos a Cenas: Compreensão Temporal na Condução Autónoma através de Modelos de Visão e Linguagem

Resumo

A compreensão temporal na condução autónoma (CA) permanece um desafio significativo, mesmo para os mais recentes Modelos de Visão e Linguagem (VLMs) de última geração. Trabalhos anteriores introduziram conjuntos de dados e benchmarks destinados a melhorar o raciocínio temporal, mas estes enfatizaram outros tipos de conteúdo de vídeo, incluindo desportos, culinária e filmes. Nenhum benchmark existente foca-se exclusivamente nos desafios únicos da compreensão temporal em filmagens ego-cêntricas de CA. Para preencher esta lacuna, é apresentado o benchmark de Compreensão Temporal em Condução Autónoma (TAD), que avalia a capacidade dos VLMs de capturar as relações dinâmicas entre ações na CA. O TAD compreende cerca de 6.000 pares de pergunta-resposta (QA), abrangendo 7 tarefas concebidas por humanos. Além disso, é realizada uma avaliação que inclui 9 modelos generalistas, de código aberto e proprietários, bem como modelos especialistas em CA de última geração. Quando aplicados ao TAD, os modelos atuais de última geração demonstraram precisões abaixo do padrão, em grande parte devido a uma compreensão imperfeita do movimento de granularidade fina. Para melhorar a compreensão do movimento e a precisão geral no TAD, são propostas duas soluções novas e sem necessidade de treino: Scene-CoT, que aproveita o Chain-of-Thought (CoT), e TCogMap, que incorpora um mapa cognitivo temporal ego-cêntrico. As abordagens propostas são integradas com VLMs existentes e melhoram a precisão média no TAD em até 17,72%. Ao introduzir o TAD, avaliar vários modelos de última geração e propor melhorias eficazes, este trabalho visa catalisar futuras investigações sobre a compreensão temporal na CA. O benchmark e o código de avaliação estão disponíveis em https://huggingface.co/datasets/vbdai/TAD e https://github.com/vbdi/tad_bench, respetivamente.

English

Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at https://huggingface.co/datasets/vbdai/TAD{Hugging Face} and https://github.com/vbdi/tad_bench{Github}, respectively.

De Segmentos a Cenas: Compreensão Temporal na Condução Autónoma através de Modelos de Visão e Linguagem

From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model

Resumo

Support