ChatPaper.aiChatPaper

UniUGP: Unificação de Compreensão, Geração e Planejamento para Condução Autônoma de Ponta a Ponta

UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

December 10, 2025
Autores: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen
cs.AI

Resumo

Os sistemas de condução autónoma (CA) enfrentam dificuldades em cenários de cauda longa devido ao conhecimento limitado do mundo e à fraca modelação dinâmica visual. Os métodos existentes baseados em visão-linguagem-ação (VLA) não conseguem aproveitar vídeos não anotados para aprendizagem causal visual, enquanto os métodos baseados em modelos do mundo carecem de capacidades de raciocínio provenientes de grandes modelos de linguagem. Neste artigo, construímos múltiplos conjuntos de dados especializados que fornecem anotações de raciocínio e planeamento para cenários complexos. Em seguida, é proposto um framework unificado de Compreensão-Geração-Planeamento, denominado UniUGP, para sinergizar o raciocínio de cena, a geração de vídeos futuros e o planeamento de trajetórias através de uma arquitetura híbrida de especialistas. Ao integrar modelos VLM e modelos de geração de vídeo pré-treinados, o UniUGP aproveita a dinâmica visual e o raciocínio semântico para melhorar o desempenho do planeamento. Recebendo como entrada observações multi-frame e instruções linguísticas, produz raciocínio interpretável em cadeia de pensamento, trajetórias fisicamente consistentes e vídeos futuros coerentes. Introduzimos uma estratégia de treino em quatro fases que constrói progressivamente estas capacidades em múltiplos conjuntos de dados de CA existentes, juntamente com os conjuntos de dados especializados propostos. Experiências demonstram desempenho state-of-the-art em perceção, raciocínio e tomada de decisão, com generalização superior para situações desafiadoras de cauda longa.
English
Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.
PDF122March 20, 2026