UniUGP: Unificação de Compreensão, Geração e Planejamento para Condução Autônoma de Ponta a Ponta

Resumo

Os sistemas de condução autónoma (CA) enfrentam dificuldades em cenários de cauda longa devido ao conhecimento limitado do mundo e à fraca modelação dinâmica visual. Os métodos existentes baseados em visão-linguagem-ação (VLA) não conseguem aproveitar vídeos não anotados para aprendizagem causal visual, enquanto os métodos baseados em modelos do mundo carecem de capacidades de raciocínio provenientes de grandes modelos de linguagem. Neste artigo, construímos múltiplos conjuntos de dados especializados que fornecem anotações de raciocínio e planeamento para cenários complexos. Em seguida, é proposto um framework unificado de Compreensão-Geração-Planeamento, denominado UniUGP, para sinergizar o raciocínio de cena, a geração de vídeos futuros e o planeamento de trajetórias através de uma arquitetura híbrida de especialistas. Ao integrar modelos VLM e modelos de geração de vídeo pré-treinados, o UniUGP aproveita a dinâmica visual e o raciocínio semântico para melhorar o desempenho do planeamento. Recebendo como entrada observações multi-frame e instruções linguísticas, produz raciocínio interpretável em cadeia de pensamento, trajetórias fisicamente consistentes e vídeos futuros coerentes. Introduzimos uma estratégia de treino em quatro fases que constrói progressivamente estas capacidades em múltiplos conjuntos de dados de CA existentes, juntamente com os conjuntos de dados especializados propostos. Experiências demonstram desempenho state-of-the-art em perceção, raciocínio e tomada de decisão, com generalização superior para situações desafiadoras de cauda longa.

English

Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.

UniUGP: Unificação de Compreensão, Geração e Planejamento para Condução Autônoma de Ponta a Ponta

UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

Resumo

Support