UniDriveVLA: Unificatie van Begrip, Waarneming en Actieplanning voor Autonoom Rijden

Samenvatting

Vision-Language-Action (VLA)-modellen zijn recentelijk opgekomen in het domein van autonoom rijden, met de belofte om rijke wereldkennis te benutten om de cognitieve capaciteiten van rijsystemen te verbeteren. Het aanpassen van dergelijke modellen voor rijtaken wordt echter geconfronteerd met een cruciaal dilemma tussen ruimtelijke perceptie en semantisch redeneren. Als gevolg daarvan worden bestaande VLA-systemen gedwongen tot suboptimale compromissen: het direct overnemen van 2D Vision-Language Models levert beperkte ruimtelijke perceptie op, terwijl het versterken ervan met 3D-ruimtelijke representaties vaak de inherente redeneercapaciteit van VLMs aantast. Wij stellen dat dit dilemma grotendeels voortkomt uit de gekoppelde optimalisatie van ruimtelijke perceptie en semantisch redeneren binnen gedeelde modelparameters. Om dit te overwinnen, stellen we UniDriveVLA voor, een Unified Driving Vision-Language-Action model gebaseerd op Mixture-of-Transformers, dat het perceptie-redeneerconflict aanpakt via expert-ontkoppeling. Concreet bestaat het uit drie experts voor rijbegrip, scèneperceptie en actieplanning, die worden gecoördineerd door middel van gemaskeerde joint attention. Daarnaast combineren we een sparse perception-paradigma met een driestaps progressieve trainingsstrategie om de ruimtelijke perceptie te verbeteren terwijl de semantische redeneercapaciteit behouden blijft. Uitgebreide experimenten tonen aan dat UniDriveVLA state-of-the-art prestaties bereikt in open-loop evaluatie op nuScenes en closed-loop evaluatie op Bench2Drive. Bovendien laat het sterke prestaties zien over een breed scala aan perceptie-, voorspellings- en begripstaken, waaronder 3D-detectie, online mapping, motion forecasting en rij-gerichte VQA, wat de brede toepasbaarheid ervan als een unified model voor autonoom rijden benadrukt. Code en model zijn vrijgegeven op https://github.com/xiaomi-research/unidrivevla.

English

Vision-Language-Action (VLA) models have recently emerged in autonomous driving, with the promise of leveraging rich world knowledge to improve the cognitive capabilities of driving systems. However, adapting such models for driving tasks currently faces a critical dilemma between spatial perception and semantic reasoning. Consequently, existing VLA systems are forced into suboptimal compromises: directly adopting 2D Vision-Language Models yields limited spatial perception, whereas enhancing them with 3D spatial representations often impairs the native reasoning capacity of VLMs. We argue that this dilemma largely stems from the coupled optimization of spatial perception and semantic reasoning within shared model parameters. To overcome this, we propose UniDriveVLA, a Unified Driving Vision-Language-Action model based on Mixture-of-Transformers that addresses the perception-reasoning conflict via expert decoupling. Specifically, it comprises three experts for driving understanding, scene perception, and action planning, which are coordinated through masked joint attention. In addition, we combine a sparse perception paradigm with a three-stage progressive training strategy to improve spatial perception while maintaining semantic reasoning capability. Extensive experiments show that UniDriveVLA achieves state-of-the-art performance in open-loop evaluation on nuScenes and closed-loop evaluation on Bench2Drive. Moreover, it demonstrates strong performance across a broad range of perception, prediction, and understanding tasks, including 3D detection, online mapping, motion forecasting, and driving-oriented VQA, highlighting its broad applicability as a unified model for autonomous driving. Code and model have been released at https://github.com/xiaomi-research/unidrivevla

UniDriveVLA: Unificatie van Begrip, Waarneming en Actieplanning voor Autonoom Rijden

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

Samenvatting

Support