Vega: Aprender a conducir con instrucciones en lenguaje natural
Vega: Learning to Drive with Natural Language Instructions
March 26, 2026
Autores: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
Resumen
Los modelos visión-lenguaje-acción han transformado la conducción autónoma al incorporar lenguajes en el proceso de toma de decisiones. Sin embargo, la mayoría de las arquitecturas existentes solo utilizan la modalidad lingüística para descripciones de escenas o razonamiento, careciendo de la flexibilidad necesaria para seguir instrucciones diversas de usuarios en conducción personalizada. Para abordar esta limitación, primero construimos un conjunto de datos de conducción a gran escala (InstructScene) que contiene aproximadamente 100,000 escenas anotadas con diversas instrucciones de conducción y sus trayectorias correspondientes. Posteriormente, proponemos un modelo unificado Visión-Lenguaje-Mundo-Acción, denominado Vega, para generación y planificación basadas en instrucciones. Empleamos el paradigma autoregresivo para procesar entradas visuales (visión) e instrucciones lingüísticas (lenguaje), y el paradigma de difusión para generar predicciones futuras (modelado del mundo) y trayectorias (acción). Implementamos atención conjunta para permitir interacciones entre modalidades y utilizamos capas de proyección individuales para diferentes modalidades, ampliando así las capacidades del modelo. Experimentos exhaustivos demuestran que nuestro método no solo logra un rendimiento de planificación superior, sino que también exhibe sólidas capacidades de seguimiento de instrucciones, allanando el camino para sistemas de conducción más inteligentes y personalizados.
English
Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.