ChatPaper.aiChatPaper

UniUGP: 엔드투엔드 자율주행을 위한 이해, 생성, 계획의 통합

UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

December 10, 2025
저자: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen
cs.AI

초록

자율주행(AD) 시스템은 제한된 세계 지식과 취약한 시각적 동역학 모델링으로 인해 롱테일 시나리오에서 어려움을 겪습니다. 기존의 시각-언어-행동(VLA) 기반 방법은 시각적 인과 관계 학습을 위해 레이블이 없는 비디오를 활용할 수 없으며, 세계 모델 기반 방법은 대규모 언어 모델의 추론 능력이 부족합니다. 본 논문에서는 복잡한 시나리오에 대한 추론 및 계획 주석을 제공하는 여러 전문 데이터 세트를 구축합니다. 그런 다음, UniUGP라는 통합 이해-생성-계획 프레임워크를 제안하여 하이브리드 전문가 아키텍처를 통해 장면 추론, 미래 비디오 생성 및 경로 계획을 상호 연동합니다. 사전 학습된 VLM과 비디오 생성 모델을 통합함으로써 UniUGP는 시각적 동역학과 의미론적 추론을 활용하여 계획 성능을 향상시킵니다. 다중 프레임 관측 데이터와 언어 명령을 입력으로 받아 해석 가능한 사고 연쇄 추론, 물리적으로 일관된 궤적, 그리고 일관성 있는 미래 비디오를 생성합니다. 여러 기존 AD 데이터 세트와 제안된 전문 데이터 세트를 통해 이러한 능력을 점진적으로 구축하는 4단계 학습 전략을 도입합니다. 실험 결과, 인식, 추론 및 의사 결정 분야에서 최첨단 성능을 보여주며, 까다로운 롱테일 상황에서도 우수한 일반화 능력을 입증했습니다.
English
Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.
PDF102December 13, 2025