OpenREAD : Raisonnement ouvert renforcé pour la conduite autonome de bout en bout avec LLM-comme-critique
OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic
December 1, 2025
papers.authors: Songyan Zhang, Wenhui Huang, Zhan Chen, Chua Jiahao Collister, Qihang Huang, Chen Lv
cs.AI
papers.abstract
Récemment, les stratégies de réglage fin en deux étapes - comme l'acquisition de connaissances essentielles sur la conduite via le réglage fin supervisé (SFT) et l'amélioration supplémentaire de la prise de décision et de la planification via le réglage fin par renforcement (RFT) - ont montré un fort potentiel pour faire progresser le paradigme de la conduite autonome (AD) basée sur la connaissance. Cependant, la nature d'apprentissage du SFT limite toujours la généralisation du raisonnement, restreignant ainsi le plein potentiel des performances de conduite. Parallèlement, les approches RFT actuelles sont principalement appliquées aux tâches en aval, car la compréhension de scène est un problème ouvert où les récompenses correspondantes sont difficiles à quantifier. Pour résoudre ces limitations, nous proposons OpenREAD, un cadre de conduite autonome (AD) basé sur un modèle vision-langage (VLM) renforcé par un raisonnement OPEN (OPEN-ended REasoning reinforced), qui permet un RFT de bout en bout sur l'ensemble du spectre, du raisonnement de haut niveau à la planification de trajectoire de bas niveau. Plus précisément, nous commençons par construire des annotations à grande échelle de Chaîne de Pensée (CoT) sur des ensembles de données open source liés aux connaissances de conduite, et utilisons le puissant modèle de langage étendu (LLM) Qwen3 comme critique dans le RFT pour quantifier la qualité du raisonnement pour les questions ouvertes lors de la modélisation des récompenses. Des expériences approfondies confirment que le RFT conjoint de bout en bout produit des améliorations substantielles tant dans les tâches en amont qu'en aval, permettant à OpenREAD d'atteindre des performances de pointe sur les benchmarks de raisonnement et de planification.
English
Recently, two-stage fine-tuning strategies, e.g., acquiring essential driving knowledge through supervised fine-tuning (SFT) and further enhancing decision-making and planning via reinforcement fine-tuning (RFT), have shown strong potential in advancing the knowledge-driven autonomous driving (AD) paradigm. However, the learning nature of SFT still limits the generalization of reasoning, thereby constraining the full potential of driving performance. Meanwhile, current RFT approaches are primarily applied to downstream tasks, since scene understanding is an open-ended problem where corresponding rewards are difficult to quantify. To address these limitations, we propose OpenREAD, an OPEN-ended REasoning reinforced vision-language model (VLM)-based autonomous driving (AD) framework that enables end-to-end RFT across the full spectrum from high-level reasoning to low-level trajectory planning. Specifically, we begin by constructing large-scale Chain-of-Thought (CoT) annotations on open-source driving-related knowledge datasets, and employ the powerful Qwen3 large language model (LLM) as the critic in RFT to quantify reasoning quality for open-ended questions during reward modeling. Extensive experiments confirm that joint end-to-end RFT yields substantial improvements in both upstream and downstream tasks, enabling OpenREAD to achieve state-of-the-art performance on reasoning and planning benchmarks.