Vega: Aprender a Conduzir com Instruções em Linguagem Natural
Vega: Learning to Drive with Natural Language Instructions
March 26, 2026
Autores: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
Resumo
Os modelos visão-linguagem-ação revolucionaram a condução autónoma ao incorporar linguagem no processo de tomada de decisão. No entanto, a maioria dos sistemas existentes utiliza a modalidade linguística apenas para descrições ou raciocínio de cena, carecendo da flexibilidade para seguir instruções diversificadas do utilizador para uma condução personalizada. Para resolver esta limitação, construímos primeiro um conjunto de dados de condução em larga escala (InstructScene) contendo cerca de 100.000 cenas anotadas com diversas instruções de condução e as respetivas trajetórias. Propomos depois um modelo unificado Visão-Linguagem-Mundo-Ação, o Vega, para geração e planeamento baseados em instruções. Empregamos o paradigma autoregressivo para processar entradas visuais (visão) e instruções linguísticas (linguagem) e o paradigma de difusão para gerar previsões futuras (modelação do mundo) e trajetórias (ação). Realizamos atenção conjunta para permitir interações entre as modalidades e utilizamos camadas de projeção individuais para diferentes modalidades, conferindo maior capacidade. Experimentos extensivos demonstram que o nosso método não só alcança um desempenho de planeamento superior, como também exibe fortes capacidades de seguimento de instruções, abrindo caminho para sistemas de condução mais inteligentes e personalizados.
English
Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.