ChatPaper.aiChatPaper

UniUGP: Unificación de la Comprensión, Generación y Planificación para la Conducción Autónoma de Extremo a Extremo

UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

December 10, 2025
Autores: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen
cs.AI

Resumen

Los sistemas de conducción autónoma (CA) presentan dificultades en escenarios de larga cola debido a su conocimiento limitado del mundo y a su débil modelado dinámico visual. Los métodos existentes basados en visión-lenguaje-acción (VLA) no pueden aprovechar los vídeos no etiquetados para el aprendizaje causal visual, mientras que los métodos basados en modelos del mundo carecen de capacidades de razonamiento propias de los modelos de lenguaje grande. En este artículo, construimos múltiples conjuntos de datos especializados que proporcionan anotaciones de razonamiento y planificación para escenarios complejos. Posteriormente, proponemos un marco unificado de Comprensión-Generación-Planificación, denominado UniUGP, para sincronizar el razonamiento escénico, la generación de vídeos futuros y la planificación de trayectorias mediante una arquitectura híbrida de expertos. Al integrar modelos VLM y modelos de generación de vídeo preentrenados, UniUGP aprovecha la dinámica visual y el razonamiento semántico para mejorar el rendimiento de la planificación. Tomando como entrada observaciones multifotograma e instrucciones lingüísticas, produce cadenas de razonamiento interpretables, trayectorias físicamente consistentes y vídeos futuros coherentes. Introducimos una estrategia de entrenamiento en cuatro etapas que desarrolla progresivamente estas capacidades en múltiples conjuntos de datos existentes de CA, junto con los conjuntos de datos especializados propuestos. Los experimentos demuestran un rendimiento de vanguardia en percepción, razonamiento y toma de decisiones, con una generalización superior en situaciones desafiantes de larga cola.
English
Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.
PDF102December 13, 2025