ChatPaper.aiChatPaper

UniUGP: Unificazione di Comprensione, Generazione e Pianificazione per la Guida Autonoma End-to-End

UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

December 10, 2025
Autori: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen
cs.AI

Abstract

I sistemi di guida autonoma (AD) incontrano difficoltà negli scenari a coda lunga a causa della limitata conoscenza del mondo e della debole modellizzazione dinamica visiva. I metodi esistenti basati su visione-linguaggio-azione (VLA) non riescono a sfruttare i video non etichettati per l'apprendimento causale visivo, mentre i metodi basati su modelli del mondo mancano di capacità di ragionamento proprie dei grandi modelli linguistici. In questo articolo, costruiamo molteplici dataset specializzati che forniscono annotazioni di ragionamento e pianificazione per scenari complessi. Successivamente, viene proposto un framework unificato di Comprensione-Generazione-Pianificazione, denominato UniUGP, per sinergizzare il ragionamento sulla scena, la generazione di video futuri e la pianificazione della traiettoria attraverso un'architettura ibrida di esperti. Integrando modelli VLM e modelli di generazione video pre-addestrati, UniUGP sfrutta la dinamica visiva e il ragionamento semantico per migliorare le prestazioni di pianificazione. Prendendo in input osservazioni multi-frame e istruzioni linguistiche, produce un ragionamento a catena del pensiero interpretabile, traiettorie fisicamente consistenti e video futuri coerenti. Introduciamo una strategia di addestramento in quattro fasi che costruisce progressivamente queste capacità su molteplici dataset AD esistenti, insieme ai dataset specializzati proposti. Gli esperimenti dimostrano prestazioni all'avanguardia nella percezione, nel ragionamento e nel processo decisionale, con una superiore generalizzazione a situazioni complesse a coda lunga.
English
Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.
PDF102December 13, 2025