Vega: Aprender a Conduzir com Instruções em Linguagem Natural

Resumo

Os modelos visão-linguagem-ação revolucionaram a condução autónoma ao incorporar linguagem no processo de tomada de decisão. No entanto, a maioria dos sistemas existentes utiliza a modalidade linguística apenas para descrições ou raciocínio de cena, carecendo da flexibilidade para seguir instruções diversificadas do utilizador para uma condução personalizada. Para resolver esta limitação, construímos primeiro um conjunto de dados de condução em larga escala (InstructScene) contendo cerca de 100.000 cenas anotadas com diversas instruções de condução e as respetivas trajetórias. Propomos depois um modelo unificado Visão-Linguagem-Mundo-Ação, o Vega, para geração e planeamento baseados em instruções. Empregamos o paradigma autoregressivo para processar entradas visuais (visão) e instruções linguísticas (linguagem) e o paradigma de difusão para gerar previsões futuras (modelação do mundo) e trajetórias (ação). Realizamos atenção conjunta para permitir interações entre as modalidades e utilizamos camadas de projeção individuais para diferentes modalidades, conferindo maior capacidade. Experimentos extensivos demonstram que o nosso método não só alcança um desempenho de planeamento superior, como também exibe fortes capacidades de seguimento de instruções, abrindo caminho para sistemas de condução mais inteligentes e personalizados.

English

Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.

Vega: Aprender a Conduzir com Instruções em Linguagem Natural

Vega: Learning to Drive with Natural Language Instructions

Resumo

Support