ChatPaper.aiChatPaper

UniUGP: 理解・生成・計画の統一によるエンドツーエンド自律走行

UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

December 10, 2025
著者: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen
cs.AI

要旨

自動運転(AD)システムは、世界知識の不足と視覚的ダイナミクスモデリングの弱さにより、ロングテールシナリオでの対応が困難である。既存のVision-Language-Action(VLA)ベースの手法は、ラベルなし動画を視覚的因果学習に活用できず、世界モデルベースの手法は大規模言語モデルによる推論能力を欠いている。本論文では、複雑なシナリオにおける推論と計画策定のアノテーションを提供する複数の専門データセットを構築する。次に、Understanding-Generation-Planning統合フレームワーク「UniUGP」を提案し、ハイブリッドエキスパートアーキテクチャを通じてシーン推論、未来動画生成、軌道計画を協調させる。事前学習済みVLMと動画生成モデルを統合することで、UniUGPは視覚的ダイナミクスと意味的推論を活用し、計画性能を向上させる。本手法は、多フレーム観測データと言語指示を入力とし、解釈可能な連鎖思考推論、物理的に一貫した軌道、首尾一貫した未来動画を生成する。複数の既存ADデータセットと提案する専門データセットを用いて、これらの能力を段階的に構築する4段階の学習戦略を導入する。実験により、知覚、推論、意思決定において最先端の性能を達成し、困難なロングテール状況への優れた一般化能力を示す。
English
Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.
PDF102December 13, 2025