ChatPaper.aiChatPaper

자율주행을 위한 시각-언어-행동 모델: 과거, 현재, 미래

Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

December 18, 2025
저자: Tianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang
cs.AI

초록

자율 주행은 오랫동안 모듈식 '인지-판단-행동' 파이프라인에 의존해 왔으며, 수작업으로 설계된 인터페이스와 규칙 기반 구성 요소들은 복잡하거나 꼬리 긴(Long-tailed) 시나리오에서 종종 제 기능을 상실합니다. 이들의 계단식 설계는 인지 오류를 추가로 전파하여 하류의 경로 계획 및 제어 성능을 저하시킵니다. 비전-행동(VA) 모델은 시각적 입력에서 행동으로의 직접적인 매핑을 학습함으로써 일부 한계를 해소하지만, 여전히 불투명하고 분포 변화에 민감하며 구조화된 추론이나 지시 따르기 능력이 부족합니다. 대규모 언어 모델(LLM) 및 멀티모달 학습의 최근 발전은 언어 기반 의사 결정과 인지를 통합하는 비전-언어-행동(VLA) 프레임워크의 등장을 촉진했습니다. 시각적 이해, 언어적 추론, 실행 가능한 출력을 통합함으로써 VLA는 더 해석 가능하고 일반화 가능하며 인간과 조율된 주행 정책을 구현할 수 있는 길을 제시합니다. 본 논문은 자율 주행을 위한 새롭게 부상하는 VLA 환경을 구조적으로 규명합니다. 초기 VA 접근법에서 현대 VLA 프레임워크로의 진화를 추적하고 기존 방법을 두 가지 주요 패러다임으로 체계화합니다. 단일 모델 내에서 인지, 추론, 계획을 통합하는 단일형 VLA와 느린 숙고(VLMs 통해)와 빠르고 안전에 중요한 실행(계획기 통해)을 분리하는 이중형 VLA입니다. 이러한 패러다임 내에서 텍스트 기반 대 수치 기반 행동 생성기, 명시적 대 암묵적 안내 메커니즘과 같은 하위 클래스를 추가로 구분합니다. 또한 VLA 기반 주행 시스템 평가를 위한 대표적인 데이터셋과 벤치마크를 요약하고, 견고성, 해석 가능성, 지시 준수성 등을 포함한 주요 과제와 미해결 방향을 강조합니다. 전반적으로, 본 연구는 인간과 조화되는 자율 주행 시스템 발전을 위한 일관된 기초를 마련하는 것을 목표로 합니다.
English
Autonomous driving has long relied on modular "Perception-Decision-Action" pipelines, where hand-crafted interfaces and rule-based components often break down in complex or long-tailed scenarios. Their cascaded design further propagates perception errors, degrading downstream planning and control. Vision-Action (VA) models address some limitations by learning direct mappings from visual inputs to actions, but they remain opaque, sensitive to distribution shifts, and lack structured reasoning or instruction-following capabilities. Recent progress in Large Language Models (LLMs) and multimodal learning has motivated the emergence of Vision-Language-Action (VLA) frameworks, which integrate perception with language-grounded decision making. By unifying visual understanding, linguistic reasoning, and actionable outputs, VLAs offer a pathway toward more interpretable, generalizable, and human-aligned driving policies. This work provides a structured characterization of the emerging VLA landscape for autonomous driving. We trace the evolution from early VA approaches to modern VLA frameworks and organize existing methods into two principal paradigms: End-to-End VLA, which integrates perception, reasoning, and planning within a single model, and Dual-System VLA, which separates slow deliberation (via VLMs) from fast, safety-critical execution (via planners). Within these paradigms, we further distinguish subclasses such as textual vs. numerical action generators and explicit vs. implicit guidance mechanisms. We also summarize representative datasets and benchmarks for evaluating VLA-based driving systems and highlight key challenges and open directions, including robustness, interpretability, and instruction fidelity. Overall, this work aims to establish a coherent foundation for advancing human-compatible autonomous driving systems.
PDF91December 19, 2025