ChatPaper.aiChatPaper

Vision-Language-Action-Modelle für das autonome Fahren: Vergangenheit, Gegenwart und Zukunft

Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

December 18, 2025
papers.authors: Tianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang
cs.AI

papers.abstract

Das autonome Fahren hat lange auf modulare "Wahrnehmungs-Entscheidungs-Handlungs"-Architekturen gesetzt, bei denen handgefertigte Schnittstellen und regelbasierte Komponenten in komplexen oder langschwänzigen Szenarien häufig versagen. Ihr kaskadierter Designansatz verstärkt zudem Wahrnehmungsfehler, was die nachgelagerten Planungs- und Steuerungsprozesse beeinträchtigt. Vision-Action (VA)-Modelle adressieren einige dieser Einschränkungen, indem sie direkte Abbildungen von visuellen Eingaben auf Aktionen erlernen, bleiben jedoch intransparent, anfällig für Distributionsverschiebungen und verfügen weder über strukturierte Reasoning-Fähigkeiten noch die Möglichkeit, Anweisungen zu befolgen. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und multimodalem Lernen haben die Entstehung von Vision-Language-Action (VLA)-Architekturen befördert, die Wahrnehmung mit sprachbasiertem Entscheidungsfinden integrieren. Durch die Vereinheitlichung von visuellem Verständnis, linguistischem Reasoning und ausführbaren Ausgaben eröffnen VLAs einen Weg zu interpretierbareren, generalisierbareren und menschlich-kompatibleren Fahrstrategien. Diese Arbeit bietet eine strukturierte Charakterisierung der aufkommenden VLA-Landschaft für das autonome Fahren. Wir zeichnen die Entwicklung von frühen VA-Ansätzen hin zu modernen VLA-Architekturen nach und unterteilen bestehende Methoden in zwei Hauptparadigmen: End-to-End-VLA, das Wahrnehmung, Reasoning und Planung in einem einzigen Modell vereint, und Dual-System-VLA, das langsame Deliberation (mittels VLMs) von schneller, sicherheitskritischer Ausführung (mittels Planern) trennt. Innerhalb dieser Paradigmen unterscheiden wir weiterhin Subklassen, wie textbasierte versus numerische Aktionsgeneratoren und explizite versus implizite Steuerungsmechanismen. Zudem fassen wir repräsentative Datensätze und Benchmarks zur Evaluierung VLA-basierter Fahrzeugsysteme zusammen und beleuchten zentrale Herausforderungen und offene Forschungsrichtungen, darunter Robustheit, Interpretierbarkeit und Instruktionstreue. Insgesamt zielt diese Arbeit darauf ab, eine kohärente Grundlage für die Weiterentwicklung menschlich-kompatibler autonomer Fahrzeugsysteme zu schaffen.
English
Autonomous driving has long relied on modular "Perception-Decision-Action" pipelines, where hand-crafted interfaces and rule-based components often break down in complex or long-tailed scenarios. Their cascaded design further propagates perception errors, degrading downstream planning and control. Vision-Action (VA) models address some limitations by learning direct mappings from visual inputs to actions, but they remain opaque, sensitive to distribution shifts, and lack structured reasoning or instruction-following capabilities. Recent progress in Large Language Models (LLMs) and multimodal learning has motivated the emergence of Vision-Language-Action (VLA) frameworks, which integrate perception with language-grounded decision making. By unifying visual understanding, linguistic reasoning, and actionable outputs, VLAs offer a pathway toward more interpretable, generalizable, and human-aligned driving policies. This work provides a structured characterization of the emerging VLA landscape for autonomous driving. We trace the evolution from early VA approaches to modern VLA frameworks and organize existing methods into two principal paradigms: End-to-End VLA, which integrates perception, reasoning, and planning within a single model, and Dual-System VLA, which separates slow deliberation (via VLMs) from fast, safety-critical execution (via planners). Within these paradigms, we further distinguish subclasses such as textual vs. numerical action generators and explicit vs. implicit guidance mechanisms. We also summarize representative datasets and benchmarks for evaluating VLA-based driving systems and highlight key challenges and open directions, including robustness, interpretability, and instruction fidelity. Overall, this work aims to establish a coherent foundation for advancing human-compatible autonomous driving systems.
PDF91December 19, 2025