Modèles Vision-Langage-Action pour la Conduite Autonome : Passé, Présent et Avenir
Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future
December 18, 2025
papers.authors: Tianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang
cs.AI
papers.abstract
La conduite autonome a longtemps reposé sur des architectures modulaires de type « Perception-Décision-Action », où les interfaces conçues manuellement et les composants basés sur des règles échouent souvent dans des scénarios complexes ou à longue traîne. Leur conception en cascade propage en outre les erreurs de perception, dégradant la planification et le contrôle en aval. Les modèles Vision-Action (VA) abordent certaines limitations en apprenant des mappages directs des entrées visuelles aux actions, mais ils restent opaques, sensibles aux décalages de distribution et manquent de capacités de raisonnement structuré ou de suivi d'instructions. Les progrès récents des grands modèles de langage (LLM) et de l'apprentissage multimodal ont motivé l'émergence de cadres Vision-Langage-Action (VLA), qui intègrent la perception à une prise de décision ancrée dans le langage. En unifiant la compréhension visuelle, le raisonnement linguistique et les sorties actionnables, les VLA offrent une voie vers des politiques de conduite plus interprétables, généralisables et alignées avec l'humain. Ce travail propose une caractérisation structurée du paysage émergent des VLA pour la conduite autonome. Nous retraçons l'évolution des premières approches VA aux cadres VLA modernes et organisons les méthodes existantes en deux paradigmes principaux : les VLA de bout en bout, qui intègrent perception, raisonnement et planification dans un modèle unique, et les VLA à double système, qui séparent la délibération lente (via des modèles de langage visuel) de l'exécution rapide et critique pour la sécurité (via des planificateurs). Au sein de ces paradigmes, nous distinguons en outre des sous-classes telles que les générateurs d'actions textuels vs. numériques et les mécanismes de guidage explicites vs. implicites. Nous résumons également les ensembles de données et benchmarks représentatifs pour évaluer les systèmes de conduite basés sur les VLA, et soulignons les défis clés et les directions ouvertes, notamment la robustesse, l'interprétabilité et la fidélité aux instructions. Globalement, ce travail vise à établir une base cohérente pour faire progresser les systèmes de conduite autonome compatibles avec l'humain.
English
Autonomous driving has long relied on modular "Perception-Decision-Action" pipelines, where hand-crafted interfaces and rule-based components often break down in complex or long-tailed scenarios. Their cascaded design further propagates perception errors, degrading downstream planning and control. Vision-Action (VA) models address some limitations by learning direct mappings from visual inputs to actions, but they remain opaque, sensitive to distribution shifts, and lack structured reasoning or instruction-following capabilities. Recent progress in Large Language Models (LLMs) and multimodal learning has motivated the emergence of Vision-Language-Action (VLA) frameworks, which integrate perception with language-grounded decision making. By unifying visual understanding, linguistic reasoning, and actionable outputs, VLAs offer a pathway toward more interpretable, generalizable, and human-aligned driving policies. This work provides a structured characterization of the emerging VLA landscape for autonomous driving. We trace the evolution from early VA approaches to modern VLA frameworks and organize existing methods into two principal paradigms: End-to-End VLA, which integrates perception, reasoning, and planning within a single model, and Dual-System VLA, which separates slow deliberation (via VLMs) from fast, safety-critical execution (via planners). Within these paradigms, we further distinguish subclasses such as textual vs. numerical action generators and explicit vs. implicit guidance mechanisms. We also summarize representative datasets and benchmarks for evaluating VLA-based driving systems and highlight key challenges and open directions, including robustness, interpretability, and instruction fidelity. Overall, this work aims to establish a coherent foundation for advancing human-compatible autonomous driving systems.