UniDriveVLA : Unification de la compréhension, de la perception et de la planification des actions pour la conduite autonome
UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving
April 2, 2026
Auteurs: Yongkang Li, Lijun Zhou, Sixu Yan, Bencheng Liao, Tianyi Yan, Kaixin Xiong, Long Chen, Hongwei Xie, Bing Wang, Guang Chen, Hangjun Ye, Wenyu Liu, Haiyang Sun, Xinggang Wang
cs.AI
Résumé
Les modèles Vision-Langage-Action (VLA) ont récemment émergé dans le domaine de la conduite autonome, promettant d'exploiter une riche connaissance du monde pour améliorer les capacités cognitives des systèmes de conduite. Cependant, l'adaptation de ces modèles aux tâches de conduite se heurte actuellement à un dilemme critique entre la perception spatiale et le raisonnement sémantique. Par conséquent, les systèmes VLA existants sont contraints à des compromis sous-optimaux : l'adoption directe de modèles vision-langage 2D offre une perception spatiale limitée, tandis que leur amélioration avec des représentations spatiales 3D altère souvent la capacité de raisonnement native des VLM. Nous soutenons que ce dilemme découle largement de l'optimisation couplée de la perception spatiale et du raisonnement sémantique au sein de paramètres de modèle partagés. Pour le surmonter, nous proposons UniDriveVLA, un modèle unifié de conduite Vision-Langage-Action basé sur une architecture Mixture-of-Transformers qui résout le conflit perception-raisonnement via un découplage d'experts. Concrètement, il comprend trois experts dédiés respectivement à la compréhension de la conduite, à la perception de la scène et à la planification d'actions, qui sont coordonnés via un mécanisme d'attention conjointe masquée. De plus, nous combinons un paradigme de perception parcimonieuse avec une stratégie d'entraînement progressif en trois étapes pour améliorer la perception spatiale tout en préservant la capacité de raisonnement sémantique. Des expériences approfondies montrent qu'UniDriveVLA obtient des performances de pointe dans l'évaluation en boucle ouverte sur nuScenes et en boucle fermée sur Bench2Drive. De plus, il démontre de solides performances sur un large éventail de tâches de perception, de prédiction et de compréhension, incluant la détection 3D, la cartographie en ligne, la prévision de trajectoire et le VQA orienté conduite, soulignant son applicabilité étendue en tant que modèle unifié pour la conduite autonome. Le code et le modèle sont disponibles à l'adresse https://github.com/xiaomi-research/unidrivevla.
English
Vision-Language-Action (VLA) models have recently emerged in autonomous driving, with the promise of leveraging rich world knowledge to improve the cognitive capabilities of driving systems. However, adapting such models for driving tasks currently faces a critical dilemma between spatial perception and semantic reasoning. Consequently, existing VLA systems are forced into suboptimal compromises: directly adopting 2D Vision-Language Models yields limited spatial perception, whereas enhancing them with 3D spatial representations often impairs the native reasoning capacity of VLMs. We argue that this dilemma largely stems from the coupled optimization of spatial perception and semantic reasoning within shared model parameters. To overcome this, we propose UniDriveVLA, a Unified Driving Vision-Language-Action model based on Mixture-of-Transformers that addresses the perception-reasoning conflict via expert decoupling. Specifically, it comprises three experts for driving understanding, scene perception, and action planning, which are coordinated through masked joint attention. In addition, we combine a sparse perception paradigm with a three-stage progressive training strategy to improve spatial perception while maintaining semantic reasoning capability. Extensive experiments show that UniDriveVLA achieves state-of-the-art performance in open-loop evaluation on nuScenes and closed-loop evaluation on Bench2Drive. Moreover, it demonstrates strong performance across a broad range of perception, prediction, and understanding tasks, including 3D detection, online mapping, motion forecasting, and driving-oriented VQA, highlighting its broad applicability as a unified model for autonomous driving. Code and model have been released at https://github.com/xiaomi-research/unidrivevla