ChatPaper.aiChatPaper

OpenREAD: Ragionamento Aperto Rinforzato per la Guida Autonoma End-to-End con LLM-come-Critico

OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic

December 1, 2025
Autori: Songyan Zhang, Wenhui Huang, Zhan Chen, Chua Jiahao Collister, Qihang Huang, Chen Lv
cs.AI

Abstract

Recentemente, le strategie di fine-tuning a due stadi, come l'acquisizione di conoscenze essenziali per la guida attraverso il fine-tuning supervisionato (SFT) e il potenziamento ulteriore delle capacità decisionali e di pianificazione tramite il fine-tuning per rinforzo (RFT), hanno dimostrato un forte potenziale nell'avanzare il paradigma della guida autonoma basata sulla conoscenza. Tuttavia, la natura intrinseca dell'apprendimento tramite SFT limita ancora la generalizzazione del ragionamento, vincolando così le potenzialità complete delle prestazioni di guida. Nel contempo, gli attuali approcci RFT sono principalmente applicati a compiti a valle, poiché la comprensione della scena è un problema aperto per il quale è difficile quantificare ricompense corrispondenti. Per affrontare queste limitazioni, proponiamo OpenREAD, un framework per la guida autonoma basato su modelli vision-language (VLM) che integra un ragionamento aperto e rinforzato, consentendo un RFT end-to-end che copre l'intero spettro, dal ragionamento di alto livello alla pianificazione di traiettorie di basso livello. Nello specifico, iniziamo costruendo annotazioni su larga scala di tipo Catena di Pensiero (CoT) su dataset open-source di conoscenze relative alla guida, e impieghiamo il potente modello linguistico di grandi dimensioni Qwen3 come critico nel RFT per quantificare la qualità del ragionamento per domande aperte durante la modellazione delle ricompense. Esperimenti estensivi confermano che un RFT end-to-end congiunto produce miglioramenti sostanziali sia nei compiti a monte che a valle, permettendo a OpenREAD di raggiungere prestazioni all'avanguardia sui benchmark di ragionamento e pianificazione.
English
Recently, two-stage fine-tuning strategies, e.g., acquiring essential driving knowledge through supervised fine-tuning (SFT) and further enhancing decision-making and planning via reinforcement fine-tuning (RFT), have shown strong potential in advancing the knowledge-driven autonomous driving (AD) paradigm. However, the learning nature of SFT still limits the generalization of reasoning, thereby constraining the full potential of driving performance. Meanwhile, current RFT approaches are primarily applied to downstream tasks, since scene understanding is an open-ended problem where corresponding rewards are difficult to quantify. To address these limitations, we propose OpenREAD, an OPEN-ended REasoning reinforced vision-language model (VLM)-based autonomous driving (AD) framework that enables end-to-end RFT across the full spectrum from high-level reasoning to low-level trajectory planning. Specifically, we begin by constructing large-scale Chain-of-Thought (CoT) annotations on open-source driving-related knowledge datasets, and employ the powerful Qwen3 large language model (LLM) as the critic in RFT to quantify reasoning quality for open-ended questions during reward modeling. Extensive experiments confirm that joint end-to-end RFT yields substantial improvements in both upstream and downstream tasks, enabling OpenREAD to achieve state-of-the-art performance on reasoning and planning benchmarks.
PDF11December 3, 2025