Vega : Apprendre à conduire avec des instructions en langage naturel
Vega: Learning to Drive with Natural Language Instructions
March 26, 2026
Auteurs: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
Résumé
Les modèles vision-langage-action ont révolutionné la conduite autonome en intégrant le langage dans le processus décisionnel. Cependant, la plupart des systèmes existants n'utilisent la modalité langage que pour la description ou le raisonnement scénique, et manquent de flexibilité pour suivre des instructions utilisateurs diversifiées permettant une conduite personnalisée. Pour résoudre ce problème, nous avons d'abord constitué un jeu de données de conduite à grande échelle (InstructScene) contenant environ 100 000 scènes annotées avec des instructions de conduite variées et leurs trajectoires correspondantes. Nous proposons ensuite un modèle unifié Vision-Langage-Monde-Action, Vega, pour la génération et la planification basées sur les instructions. Nous employons un paradigme autorégressif pour traiter les entrées visuelles (vision) et les instructions linguistiques (langage), et un paradigme de diffusion pour générer les prédictions futures (modélisation du monde) et les trajectoires (action). Nous mettons en œuvre une attention conjointe pour permettre les interactions entre les modalités et utilisons des couches de projection individuelles pour différentes modalités afin d'élargir les capacités du modèle. Des expérimentations approfondies démontrent que notre méthode obtient non seulement des performances de planification supérieures, mais présente également de solides capacités de suivi d'instructions, ouvrant la voie à des systèmes de conduite plus intelligents et personnalisés.
English
Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.