Vega: Erlernen des Fahrens mit natürlichen Sprachbefehlen
Vega: Learning to Drive with Natural Language Instructions
March 26, 2026
Autoren: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
Zusammenfassung
Vision-Language-Action-Modelle haben das autonome Fahren revolutioniert, indem sie Sprache in den Entscheidungsprozess integrieren. Allerdings nutzen die meisten bestehenden Pipelines die Sprachmodalität lediglich für Szenenbeschreibungen oder logisches Schlussfolgern und bieten keine Flexibilität, um unterschiedlichen Benutzeranweisungen für personalisiertes Fahren zu folgen. Um dieses Problem zu lösen, haben wir zunächst einen großen Fahrdatensatz (InstructScene) mit etwa 100.000 Szenen erstellt, die mit verschiedenen Fahrinstruktionen und den entsprechenden Trajektorien annotiert sind. Anschließend schlagen wir ein einheitliches Vision-Language-World-Action-Modell namens Vega vor, das auf Anweisungen basierte Generierung und Planung ermöglicht. Wir verwenden das autoregressive Paradigma zur Verarbeitung visueller Eingaben (Vision) und Sprachinstruktionen (Language) sowie das Diffusionsparadigma zur Generierung von Zukunftsvorhersagen (Weltmodellierung) und Trajektorien (Aktion). Durch gemeinsame Aufmerksamkeitsmechanismen ermöglichen wir Interaktionen zwischen den Modalitäten und nutzen separate Projektionsschichten für verschiedene Modalitäten, um die Fähigkeiten zu erweitern. Umfangreiche Experimente zeigen, dass unsere Methode nicht nur eine überlegene Planungsleistung erzielt, sondern auch starke Befolgungskompetenz von Anweisungen aufweist, was den Weg für intelligentere und personalisiertere Fahrzeugsysteme ebnet.
English
Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.