ChatPaper.aiChatPaper

OpenREAD:LLMを批評家としたエンドツーエンド自律走行のための強化学習型オープンエンド推論

OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic

December 1, 2025
著者: Songyan Zhang, Wenhui Huang, Zhan Chen, Chua Jiahao Collister, Qihang Huang, Chen Lv
cs.AI

要旨

近年、教師ありファインチューニング(SFT)による必須の運転知識の獲得と、強化学習ファインチューニング(RFT)による意思決定・計画能力のさらなる強化という、2段階のファインチューニング戦略が、知識駆動型自律走行(AD)パラダイムを進展させる上で強い可能性を示している。しかし、SFTの学習特性は依然として推論の汎化を制限し、運転性能の真の潜在能力を拘束している。一方、現在のRFT手法は、シーン理解が対応する報酬の定量化が困難なオープンエンドな問題であるため、主に下流タスクに適用されている。これらの課題を解決するため、我々はOpenREADを提案する。これは、高水準の推論から低水準の軌道計画に至る全範囲にわたってエンドツーエンドのRFTを可能にする、オープンエンドな推論を強化したビジョン言語モデル(VLM)ベースの自律走行(AD)フレームワークである。具体的には、まずオープンソースの運転関連知識データセットに対して大規模な連鎖思考(Chain-of-Thought, CoT)アノテーションを構築し、強力なQwen3大規模言語モデル(LLM)をRFTにおける批評家として活用して、報酬モデリングにおけるオープンエンドな質問に対する推論の質を定量化する。大規模な実験により、エンドツーエンドの共同RFTが上流・下流の両タスクにおいて大幅な改善をもたらし、OpenREADが推論及び計画のベンチマークでState-of-the-Artの性能を達成できることが確認された。
English
Recently, two-stage fine-tuning strategies, e.g., acquiring essential driving knowledge through supervised fine-tuning (SFT) and further enhancing decision-making and planning via reinforcement fine-tuning (RFT), have shown strong potential in advancing the knowledge-driven autonomous driving (AD) paradigm. However, the learning nature of SFT still limits the generalization of reasoning, thereby constraining the full potential of driving performance. Meanwhile, current RFT approaches are primarily applied to downstream tasks, since scene understanding is an open-ended problem where corresponding rewards are difficult to quantify. To address these limitations, we propose OpenREAD, an OPEN-ended REasoning reinforced vision-language model (VLM)-based autonomous driving (AD) framework that enables end-to-end RFT across the full spectrum from high-level reasoning to low-level trajectory planning. Specifically, we begin by constructing large-scale Chain-of-Thought (CoT) annotations on open-source driving-related knowledge datasets, and employ the powerful Qwen3 large language model (LLM) as the critic in RFT to quantify reasoning quality for open-ended questions during reward modeling. Extensive experiments confirm that joint end-to-end RFT yields substantial improvements in both upstream and downstream tasks, enabling OpenREAD to achieve state-of-the-art performance on reasoning and planning benchmarks.
PDF11December 3, 2025