UniDriveVLA: Unificación de la Comprensión, Percepción y Planificación de Acciones para la Conducción Autónoma

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) han surgido recientemente en la conducción autónoma, con la promesa de aprovechar el conocimiento del mundo para mejorar las capacidades cognitivas de los sistemas de conducción. Sin embargo, la adaptación de dichos modelos a tareas de conducción enfrenta actualmente un dilema crítico entre la percepción espacial y el razonamiento semántico. En consecuencia, los sistemas VLA existentes se ven forzados a realizar compromisos subóptimos: adoptar directamente Modelos de Lenguaje-Visión 2D produce una percepción espacial limitada, mientras que mejorarlos con representaciones espaciales 3D a menudo perjudica la capacidad de razonamiento nativa de los VLM. Sostenemos que este dilema surge en gran medida de la optimización acoplada de la percepción espacial y el razonamiento semántico dentro de parámetros de modelo compartidos. Para superarlo, proponemos UniDriveVLA, un modelo unificado de Conducción Visión-Lenguaje-Acción basado en Mixture-of-Transformers que aborda el conflicto percepción-razonamiento mediante el desacoplamiento de expertos. Específicamente, comprende tres expertos para la comprensión de la conducción, la percepción de la escena y la planificación de acciones, los cuales se coordinan a través de atención conjunta enmascarada. Además, combinamos un paradigma de percepción escasa con una estrategia de entrenamiento progresivo de tres etapas para mejorar la percepción espacial manteniendo la capacidad de razonamiento semántico. Experimentos exhaustivos muestran que UniDriveVLA logra un rendimiento de vanguardia en la evaluación de lazo abierto en nuScenes y en la evaluación de lazo cerrado en Bench2Drive. Además, demuestra un fuerte rendimiento en una amplia gama de tareas de percepción, predicción y comprensión, incluyendo detección 3D, mapeo en línea, pronóstico de movimiento y VQA orientado a la conducción, destacando su amplia aplicabilidad como modelo unificado para la conducción autónoma. El código y el modelo han sido publicados en https://github.com/xiaomi-research/unidrivevla.

English

Vision-Language-Action (VLA) models have recently emerged in autonomous driving, with the promise of leveraging rich world knowledge to improve the cognitive capabilities of driving systems. However, adapting such models for driving tasks currently faces a critical dilemma between spatial perception and semantic reasoning. Consequently, existing VLA systems are forced into suboptimal compromises: directly adopting 2D Vision-Language Models yields limited spatial perception, whereas enhancing them with 3D spatial representations often impairs the native reasoning capacity of VLMs. We argue that this dilemma largely stems from the coupled optimization of spatial perception and semantic reasoning within shared model parameters. To overcome this, we propose UniDriveVLA, a Unified Driving Vision-Language-Action model based on Mixture-of-Transformers that addresses the perception-reasoning conflict via expert decoupling. Specifically, it comprises three experts for driving understanding, scene perception, and action planning, which are coordinated through masked joint attention. In addition, we combine a sparse perception paradigm with a three-stage progressive training strategy to improve spatial perception while maintaining semantic reasoning capability. Extensive experiments show that UniDriveVLA achieves state-of-the-art performance in open-loop evaluation on nuScenes and closed-loop evaluation on Bench2Drive. Moreover, it demonstrates strong performance across a broad range of perception, prediction, and understanding tasks, including 3D detection, online mapping, motion forecasting, and driving-oriented VQA, highlighting its broad applicability as a unified model for autonomous driving. Code and model have been released at https://github.com/xiaomi-research/unidrivevla

UniDriveVLA: Unificación de la Comprensión, Percepción y Planificación de Acciones para la Conducción Autónoma

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

Resumen

Support