UniUGP: Unificatie van Begrip, Generatie en Planning voor End-to-end Autonoom Rijden
UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving
December 10, 2025
Auteurs: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen
cs.AI
Samenvatting
Autonome rijsystemen (AD) kampen in long-tail-scenario's met beperkte wereldkennis en zwakke visuele dynamische modellering. Bestaande op visie-taal-actie (VLA) gebaseerde methoden kunnen ongelabelde video's niet benutten voor visueel causaal leren, terwijl op wereldmodellen gebaseerde methoden redeneervaardigheden ontberen van grote taalmmodellen. In dit artikel construeren we meerdere gespecialiseerde datasets die redeneer- en planningsannotaties bieden voor complexe scenario's. Vervolgens wordt een uniform Understanding-Generation-Planning raamwerk, genaamd UniUGP, voorgesteld om scèneredenering, toekomstige videogeneratie en trajectplanning te synchroniseren via een hybride expertarchitectuur. Door vooraf getrainde VLM's en videogeneratiemodellen te integreren, benut UniUGP visuele dynamiek en semantisch redeneren om de planningsprestatie te verbeteren. Het neemt multi-frame observaties en taalinstructies als input, en produceert interpreteerbare keten-van-gedachte-redenering, fysiek consistente trajecten en samenhangende toekomstige video's. We introduceren een vierfasen-trainingsstrategie die deze capaciteiten progressief opbouwt over meerdere bestaande AD-datasets, samen met de voorgestelde gespecialiseerde datasets. Experimenten tonen state-of-the-art prestaties in perceptie, redenering en besluitvorming, met superieure generalisatie naar uitdagende long-tail-situaties.
English
Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.