베가: 자연어 지시로 운전 배우기
Vega: Learning to Drive with Natural Language Instructions
March 26, 2026
저자: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI
초록
비전-언어-행동 모델은 자율 주행에 언어를 의사 결정 과정에 통합하는 방식을 재편해왔습니다. 그러나 기존 대부분의 파이프라인은 언어 양상을 단순 장면 설명이나 추론에만 활용하며, 다양한 사용자 지시에 따라 맞춤형 주행을 수행할 수 있는 유연성이 부족합니다. 이를 해결하기 위해 우리는 먼저 약 10만 개의 장면과 해당 궤적에 다양한 주행 지시를 포함한 대규모 주행 데이터셋(InstructScene)을 구축했습니다. 그런 다음 지시 기반 생성 및 계획을 위한 통합 비전-언어-세계-행동 모델인 Vega를 제안합니다. 우리는 시각 입력(비전)과 언어 지시(언어)를 처리하기 위해 자기회귀 패러다임을 채택하고, 미래 예측(세계 모델링)과 궤적(행동) 생성을 위해 확산 패러다임을 활용합니다. 다양한 양상 간 상호 작용을 가능하게 하기 위해 공동 어텐션을 수행하고, 더 많은 기능을 위해 각 양상에 개별 투영 계층을 사용합니다. 폭넓은 실험을 통해 우리의 방법이 우수한 계획 성능을 달성할 뿐만 아니라 강력한 지시 추종 능력을 보여주며, 더 지능적이고 개인화된 주행 시스템을 위한 길을 열어줌을 입증했습니다.
English
Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.