UniUGP: Vereinheitlichung von Verstehen, Generierung und Planung für End-to-End Autonomes Fahren
UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving
December 10, 2025
papers.authors: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen
cs.AI
papers.abstract
Autonome Fahrzeugsysteme (AD) haben in Long-Tail-Szenarien Schwierigkeiten aufgrund begrenzten Weltwissens und schwacher visueller dynamischer Modellierung. Bestehende, auf Vision-Language-Action (VLA) basierende Methoden können unmarkierte Videos nicht für visuelles kausales Lernen nutzen, während Methoden auf Basis von Weltmodellen die Reasoning-Fähigkeiten großer Sprachmodelle vermissen lassen. In diesem Artikel konstruieren wir mehrere spezialisierte Datensätze, die Reasoning- und Planungsannotationen für komplexe Szenarien bereitstellen. Anschließend wird ein einheitliches Understanding-Generation-Planning-Framework namens UniUGP vorgeschlagen, das Szenenreasoning, zukünftige Videogenerierung und Trajektorienplanung durch eine hybride Expertenarchitektur synergistisch verbindet. Durch die Integration vortrainierter VLMs und Videogenerierungsmodelle nutzt UniUGP visuelle Dynamik und semantisches Reasoning, um die Planungsleistung zu verbessern. Es nimmt Multiframe-Beobachtungen und Sprachinstruktionen als Eingabe und erzeugt interpretierbares Chain-of-Thought-Reasoning, physikalisch konsistente Trajektorien und kohärente Zukunfts-Videos. Wir führen eine vierstufige Trainingsstrategie ein, die diese Fähigkeiten schrittweise über mehrere bestehende AD-Datensätze sowie die vorgeschlagenen spezialisierten Datensätze hinweg aufbaut. Experimente demonstrieren state-of-the-art Leistung in Wahrnehmung, Reasoning und Entscheidungsfindung mit überlegener Generalisierung auf anspruchsvolle Long-Tail-Situationen.
English
Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.