ChatPaper.aiChatPaper

UniUGP : Unification de la compréhension, de la génération et de la planification pour la conduite autonome de bout en bout

UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

December 10, 2025
papers.authors: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen
cs.AI

papers.abstract

Les systèmes de conduite autonome (CA) peinent à gérer les scénarios de longue traîne en raison de leurs connaissances limitées du monde et de leur modélisation dynamique visuelle insuffisante. Les méthodes existantes basées sur vision-langage-action (VLA) ne peuvent pas exploiter les vidéos non étiquetées pour l'apprentissage de la causalité visuelle, tandis que les méthodes basées sur les modèles du monde manquent de capacités de raisonnement issues des grands modèles de langage. Dans cet article, nous construisons plusieurs ensembles de données spécialisés fournissant des annotations de raisonnement et de planification pour des scénarios complexes. Ensuite, un cadre unifié Compréhension-Génération-Planification, nommé UniUGP, est proposé pour synergiser le raisonnement scénique, la génération de vidéos futures et la planification de trajectoire via une architecture hybride d'experts. En intégrant des modèles de vision-langage pré-entraînés et des modèles de génération vidéo, UniUGP exploite la dynamique visuelle et le raisonnement sémantique pour améliorer les performances de planification. Prenant en entrée des observations multi-images et des instructions langagières, il produit un raisonnement explicable en chaîne de pensée, des trajectoires physiquement cohérentes et des vidéos futures cohérentes. Nous introduisons une stratégie d'entraînement en quatre étapes qui développe progressivement ces capacités sur plusieurs ensembles de données de CA existants, ainsi que sur les ensembles de données spécialisés proposés. Les expériences démontrent des performances de pointe en perception, raisonnement et prise de décision, avec une généralisation supérieure dans des situations de longue traîne difficiles.
English
Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.
PDF102December 13, 2025