自動運転におけるVision-Language-Actionモデル:過去・現在・未来
Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future
December 18, 2025
著者: Tianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang
cs.AI
要旨
自律走行は長年にわたり、モジュール型の「知覚-判断-行動」パイプラインに依存してきた。人手で設計されたインターフェースとルールベースのコンポーネントは、複雑な状況やロングテールのシナリオでしばしば破綻する。さらに、カスケード構造によって知覚誤差が下流の経路計画や制御に伝播し、性能が劣化するという課題があった。視覚-行動(VA)モデルは視覚入力を行動に直接写像する学習により一部の制約を解決したが、ブラックボックス性、分布変化への脆弱性、構造化された推論や指示追従能力の欠如といった課題を残している。
大規模言語モデル(LLM)とマルチモーダル学習の進展により、視覚-言語-行動(VLA)フレームワークが登場した。これは知覚機能を言語に基づく意思決定と統合するアプローチである。視覚理解、言語的推論、実行可能な出力を統合するVLAは、より解釈可能で一般性が高く、人間の意図に沿った走行ポリシー実現への道筋を提供する。
本論文は自律走行における新興分野であるVLAの体系的な分類を提示する。初期のVAアプローチから現代のVLAフレームワークへの発展を辿り、既存手法を二つの主要パラダイムに整理する:知覚・推論・計画を単一モデルに統合するEnd-to-End VLAと、低速の熟慮(VLM経由)と高速の安全批判的実行(プランナー経由)を分離するDual-System VLAである。これらのパラダイム内で、テキスト型と数値型の行動生成器、明示的と暗黙的な指導メカニズムといった下位分類をさらに区別する。
また、VLAベースの走行システムを評価する代表的なデータセットとベンチマークをまとめ、ロバスト性、解釈性、指示忠実性といった主要な課題と未解決の方向性を強調する。全体として、本論文は人間互換の自律走行システムを推進するための一貫した基盤の確立を目指すものである。
English
Autonomous driving has long relied on modular "Perception-Decision-Action" pipelines, where hand-crafted interfaces and rule-based components often break down in complex or long-tailed scenarios. Their cascaded design further propagates perception errors, degrading downstream planning and control. Vision-Action (VA) models address some limitations by learning direct mappings from visual inputs to actions, but they remain opaque, sensitive to distribution shifts, and lack structured reasoning or instruction-following capabilities. Recent progress in Large Language Models (LLMs) and multimodal learning has motivated the emergence of Vision-Language-Action (VLA) frameworks, which integrate perception with language-grounded decision making. By unifying visual understanding, linguistic reasoning, and actionable outputs, VLAs offer a pathway toward more interpretable, generalizable, and human-aligned driving policies. This work provides a structured characterization of the emerging VLA landscape for autonomous driving. We trace the evolution from early VA approaches to modern VLA frameworks and organize existing methods into two principal paradigms: End-to-End VLA, which integrates perception, reasoning, and planning within a single model, and Dual-System VLA, which separates slow deliberation (via VLMs) from fast, safety-critical execution (via planners). Within these paradigms, we further distinguish subclasses such as textual vs. numerical action generators and explicit vs. implicit guidance mechanisms. We also summarize representative datasets and benchmarks for evaluating VLA-based driving systems and highlight key challenges and open directions, including robustness, interpretability, and instruction fidelity. Overall, this work aims to establish a coherent foundation for advancing human-compatible autonomous driving systems.