ChatPaper.aiChatPaper

Вега: Обучение вождению с использованием инструкций на естественном языке

Vega: Learning to Drive with Natural Language Instructions

March 26, 2026
Авторы: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI

Аннотация

Модели «видение-язык-действие» преобразовали автономное вождение, интегрируя языковые средства в процесс принятия решений. Однако большинство существующих систем используют языковую модальность лишь для описания сцен или логических выводов и не обладают гибкостью для выполнения разнообразных пользовательских инструкций в рамках персонализированного вождения. Для решения этой проблемы мы сначала создали масштабный набор данных по вождению (InstructScene), содержащий около 100 000 сцен, аннотированных разнообразными инструкциями по вождению с соответствующими траекториями. Затем мы предлагаем унифицированную модель «Видение-Язык-Мир-Действие» (Vega) для генерации и планирования на основе инструкций. Мы используем авторегрессионную парадигму для обработки визуальных входных данных (зрение) и языковых инструкций (язык), а также диффузионную парадигму для генерации прогнозов будущего (моделирование мира) и траекторий (действие). Для обеспечения взаимодействия между модальностями применяется совместный механизм внимания, а для расширения возможностей модели используются отдельные проекционные слои для разных модальностей. Многочисленные эксперименты демонстрируют, что наш метод не только достигает превосходных результатов в планировании, но и проявляет высокую способность к следованию инструкциям, открывая путь к созданию более интеллектуальных и персонализированных систем вождения.
English
Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.
PDF00March 28, 2026