ChatPaper.aiChatPaper

ベガ:自然言語指示による運転の学習

Vega: Learning to Drive with Natural Language Instructions

March 26, 2026
著者: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI

要旨

視覚言語行動モデルは、自律走行に言語を意思決定プロセスに組み込む形で再構築を進めている。しかし、既存のパイプラインの多くは、言語モダリティをシーン記述や推論にのみ利用しており、多様なユーザ指示に従った個人化された走行を行う柔軟性に欠けている。この問題に対処するため、我々はまず、対応する軌道とともに多様な走行指示が注釈付けられた約10万シーンを含む大規模運転データセット(InstructScene)を構築した。次に、指示ベースの生成と計画のための統一的なVision-Language-World-Actionモデル、Vegaを提案する。我々は、視覚入力(ビジョン)と言語指示(言語)の処理に自己回帰パラダイムを、将来予測(世界モデリング)と軌道(行動)の生成に拡散パラダイムを採用する。モダリティ間の相互作用を可能にするために共同注意を実行し、より多くの機能を実現するために異なるモダリティに個別の投影層を使用する。大規模な実験により、本手法が優れた計画性能を達成するだけでなく、強力な指示追従能力を示し、より知的で個人化された運転システムへの道を開くことを実証した。
English
Vision-language-action models have reshaped autonomous driving to incorporate languages into the decision-making process. However, most existing pipelines only utilize the language modality for scene descriptions or reasoning and lack the flexibility to follow diverse user instructions for personalized driving. To address this, we first construct a large-scale driving dataset (InstructScene) containing around 100,000 scenes annotated with diverse driving instructions with the corresponding trajectories. We then propose a unified Vision-Language-World-Action model, Vega, for instruction-based generation and planning. We employ the autoregressive paradigm to process visual inputs (vision) and language instructions (language) and the diffusion paradigm to generate future predictions (world modeling) and trajectories (action). We perform joint attention to enable interactions between the modalities and use individual projection layers for different modalities for more capabilities. Extensive experiments demonstrate that our method not only achieves superior planning performance but also exhibits strong instruction-following abilities, paving the way for more intelligent and personalized driving systems.
PDF00March 28, 2026