ChatPaper.aiChatPaper

Modelos Visión-Lenguaje-Acción para la Conducción Autónoma: Pasado, Presente y Futuro

Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

December 18, 2025
Autores: Tianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang
cs.AI

Resumen

La conducción autónoma ha dependido durante mucho tiempo de arquitecturas modulares del tipo "Percepción-Decisión-Acción", donde las interfaces diseñadas manualmente y los componentes basados en reglas suelen fallar en escenarios complejos o de cola larga. Su diseño en cascada propaga además los errores de percepción, degradando la planificación y el control subsiguientes. Los modelos Visión-Acción (VA) abordan algunas limitaciones al aprender mapeos directos de las entradas visuales a las acciones, pero siguen siendo opacos, sensibles a los cambios de distribución y carecen de capacidades de razonamiento estructurado o de seguimiento de instrucciones. Los recientes avances en los Modelos de Lenguaje Grande (LLM) y el aprendizaje multimodal han motivado la aparición de los marcos Visión-Lenguaje-Acción (VLA), que integran la percepción con la toma de decisiones basada en lenguaje. Al unificar la comprensión visual, el razonamiento lingüístico y las salidas accionables, los VLA ofrecen un camino hacia políticas de conducción más interpretables, generalizables y alineadas con los humanos. Este trabajo proporciona una caracterización estructurada del emergente panorama VLA para la conducción autónoma. Trazamos la evolución desde los primeros enfoques VA hasta los marcos VLA modernos y organizamos los métodos existentes en dos paradigmas principales: VLA de Extremo a Extremo, que integra percepción, razonamiento y planificación en un único modelo, y VLA de Sistema Dual, que separa la deliberación lenta (mediante Modelos de Lenguaje Visual - VLM) de la ejecución rápida y crítica para la seguridad (mediante planificadores). Dentro de estos paradigmas, distinguimos además subclases, como los generadores de acciones textuales frente a los numéricos y los mecanismos de guía explícitos frente a los implícitos. También resumimos los conjuntos de datos y puntos de referencia representativos para evaluar los sistemas de conducción basados en VLA y destacamos los principales desafíos y direcciones abiertas, incluyendo la robustez, la interpretabilidad y la fidelidad a las instrucciones. En general, este trabajo pretende establecer una base coherente para avanzar en el desarrollo de sistemas de conducción autónoma compatibles con los humanos.
English
Autonomous driving has long relied on modular "Perception-Decision-Action" pipelines, where hand-crafted interfaces and rule-based components often break down in complex or long-tailed scenarios. Their cascaded design further propagates perception errors, degrading downstream planning and control. Vision-Action (VA) models address some limitations by learning direct mappings from visual inputs to actions, but they remain opaque, sensitive to distribution shifts, and lack structured reasoning or instruction-following capabilities. Recent progress in Large Language Models (LLMs) and multimodal learning has motivated the emergence of Vision-Language-Action (VLA) frameworks, which integrate perception with language-grounded decision making. By unifying visual understanding, linguistic reasoning, and actionable outputs, VLAs offer a pathway toward more interpretable, generalizable, and human-aligned driving policies. This work provides a structured characterization of the emerging VLA landscape for autonomous driving. We trace the evolution from early VA approaches to modern VLA frameworks and organize existing methods into two principal paradigms: End-to-End VLA, which integrates perception, reasoning, and planning within a single model, and Dual-System VLA, which separates slow deliberation (via VLMs) from fast, safety-critical execution (via planners). Within these paradigms, we further distinguish subclasses such as textual vs. numerical action generators and explicit vs. implicit guidance mechanisms. We also summarize representative datasets and benchmarks for evaluating VLA-based driving systems and highlight key challenges and open directions, including robustness, interpretability, and instruction fidelity. Overall, this work aims to establish a coherent foundation for advancing human-compatible autonomous driving systems.
PDF91December 19, 2025