ChatPaper.aiChatPaper

Vision-Language-Actie-modellen voor autonoom rijden: Verleden, Heden en Toekomst

Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

December 18, 2025
Auteurs: Tianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang
cs.AI

Samenvatting

Autonoom rijden heeft lange tijd vertrouwd op modulaire "Perceptie-Beslissing-Actie" pijplijnen, waarbij handmatig gemaakte interfaces en op regels gebaseerde componenten vaak falen in complexe of 'long-tailed' scenario's. Hun cascade-ontwerp zorgt er verder voor dat perceptiefouten worden doorgegeven, wat de downstream planning en controle aantast. Vision-Action (VA)-modellen adresseren enkele beperkingen door directe mapping van visuele input naar acties aan te leren, maar ze blijven ondoorzichtig, gevoelig voor distributieverschuivingen en missen gestructureerd redeneervermogen of de mogelijkheid om instructies te volgen. Recente vooruitgang in Large Language Models (LLM's) en multimodaal leren heeft de opkomst gemotiveerd van Vision-Language-Action (VLA)-raamwerken, die perceptie integreren met op taal gebaseerde besluitvorming. Door visueel begrip, linguïstisch redeneren en actiegerichte output te verenigen, bieden VLA's een weg naar meer interpreteerbare, generaliseerbare en op de mens afgestemde rijbeleid. Dit werk biedt een gestructureerde karakterisering van het opkomende VLA-landschap voor autonoom rijden. We volgen de evolutie van vroege VA-benaderingen naar moderne VLA-raamwerken en organiseren bestaande methoden in twee hoofdparadigma's: End-to-End VLA, dat perceptie, redeneren en planning integreert binnen een enkel model, en Dual-System VLA, dat trage deliberatie (via VLM's) scheidt van snelle, veiligheidskritieke uitvoering (via planners). Binnen deze paradigma's onderscheiden we verder subklassen, zoals tekstuele versus numerieke actiegeneratoren en expliciete versus impliciete begeleidingsmechanismen. We vatten ook representatieve datasets en benchmarks samen voor het evalueren van VLA-gebaseerde rijsystemen en belichten belangrijke uitdagingen en open onderzoeksrichtingen, waaronder robuustheid, interpreteerbaarheid en instructietrouw. Over het geheel genomen beoogt dit werk een samenhangende basis te leggen voor de verdere ontwikkeling van menscompatibele autonome rijsystemen.
English
Autonomous driving has long relied on modular "Perception-Decision-Action" pipelines, where hand-crafted interfaces and rule-based components often break down in complex or long-tailed scenarios. Their cascaded design further propagates perception errors, degrading downstream planning and control. Vision-Action (VA) models address some limitations by learning direct mappings from visual inputs to actions, but they remain opaque, sensitive to distribution shifts, and lack structured reasoning or instruction-following capabilities. Recent progress in Large Language Models (LLMs) and multimodal learning has motivated the emergence of Vision-Language-Action (VLA) frameworks, which integrate perception with language-grounded decision making. By unifying visual understanding, linguistic reasoning, and actionable outputs, VLAs offer a pathway toward more interpretable, generalizable, and human-aligned driving policies. This work provides a structured characterization of the emerging VLA landscape for autonomous driving. We trace the evolution from early VA approaches to modern VLA frameworks and organize existing methods into two principal paradigms: End-to-End VLA, which integrates perception, reasoning, and planning within a single model, and Dual-System VLA, which separates slow deliberation (via VLMs) from fast, safety-critical execution (via planners). Within these paradigms, we further distinguish subclasses such as textual vs. numerical action generators and explicit vs. implicit guidance mechanisms. We also summarize representative datasets and benchmarks for evaluating VLA-based driving systems and highlight key challenges and open directions, including robustness, interpretability, and instruction fidelity. Overall, this work aims to establish a coherent foundation for advancing human-compatible autonomous driving systems.
PDF91December 19, 2025