UniUGP: Унификация понимания, генерации и планирования для сквозного автономного вождения
UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving
December 10, 2025
Авторы: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen
cs.AI
Аннотация
Системы автономного вождения сталкиваются с трудностями в редких сценариях из-за ограниченных знаний о мире и слабого моделирования визуальной динамики. Существующие методы на основе "визуальный язык-действие" не могут использовать неразмеченные видео для визуального причинного обучения, в то время как методы на основе моделей мира лишены возможностей логического вывода больших языковых моделей. В данной работе мы создаем несколько специализированных наборов данных с аннотациями логических рассуждений и планирования для сложных сценариев. Затем предлагается унифицированная архитектура Understanding-Generation-Planning (UniUGP), которая объединяет анализ сцены, генерацию будущих видео и планирование траектории через гибридную экспертизу. Интегрируя предобученные визуально-языковые модели и модели генерации видео, UniUGP использует визуальную динамику и семантические рассуждения для улучшения планирования. Принимая многокадровые наблюдения и языковые инструкции на вход, система производит интерпретируемую цепочку рассуждений, физически согласованные траектории и последовательные видео будущих состояний. Представлена четырехэтапная стратегия обучения, поэтапно формирующая эти возможности на множестве существующих наборов данных по автономному вождению вместе с предложенными специализированными наборами. Эксперименты демонстрируют передовые результаты в восприятии, рассуждении и принятии решений с превосходной обобщающей способностью для сложных редких ситуаций.
English
Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.