OpenREAD: Verstärktes offenes Schließen für End-to-End autonomes Fahren mit LLM-als-Kritiker
OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic
December 1, 2025
papers.authors: Songyan Zhang, Wenhui Huang, Zhan Chen, Chua Jiahao Collister, Qihang Huang, Chen Lv
cs.AI
papers.abstract
Kürzlich haben zweistufige Feinabstimmungsstrategien, beispielsweise der Erwerb von wesentlichem Fahrwissen durch überwachte Feinabstimmung (SFT) und die weitere Verbesserung von Entscheidungsfindung und Planung durch verstärkende Feinabstimmung (RFT), großes Potenzial für die Weiterentwicklung des wissensbasierten autonomen Fahrparadigmas gezeigt. Die Lernnatur der SFT begrenzt jedoch nach wie vor die Generalisierung des Schlussfolgerns und schränkt damit das volle Potenzial der Fahrleistung ein. Gleichzeitig werden aktuelle RFT-Ansätze primär auf nachgelagerte Aufgaben angewendet, da Szenenverständnis ein offenes Problem ist, bei dem entsprechende Belohnungen schwer zu quantifizieren sind. Um diese Einschränkungen zu adressieren, schlagen wir OpenREAD vor, ein OPEN-ended REasoning reinforced Vision-Language-Model (VLM)-basiertes Framework für autonomes Fahren, das eine end-to-end RFT über das gesamte Spektrum von hochrangigem Schlussfolgern bis hin zu niederrangiger Trajektorienplanung ermöglicht. Konkret beginnen wir mit der Erstellung groß angelegter Chain-of-Thought (CoT)-Annotationen auf quelloffenen, fahrbezogenen Wissensdatensätzen und setzen das leistungsstarke Qwen3 Large Language Model (LLM) als Kritiker in der RFT ein, um die Schlussfolgerungsqualität für offene Fragen während der Belohnungsmodellierung zu quantifizieren. Umfangreiche Experimente bestätigen, dass gemeinsame end-to-end RFT zu erheblichen Verbesserungen sowohl in vorgelagerten als auch nachgelagerten Aufgaben führt und es OpenREAD ermöglicht, state-of-the-art Leistung auf Schlussfolgerungs- und Planungsbenchmarks zu erzielen.
English
Recently, two-stage fine-tuning strategies, e.g., acquiring essential driving knowledge through supervised fine-tuning (SFT) and further enhancing decision-making and planning via reinforcement fine-tuning (RFT), have shown strong potential in advancing the knowledge-driven autonomous driving (AD) paradigm. However, the learning nature of SFT still limits the generalization of reasoning, thereby constraining the full potential of driving performance. Meanwhile, current RFT approaches are primarily applied to downstream tasks, since scene understanding is an open-ended problem where corresponding rewards are difficult to quantify. To address these limitations, we propose OpenREAD, an OPEN-ended REasoning reinforced vision-language model (VLM)-based autonomous driving (AD) framework that enables end-to-end RFT across the full spectrum from high-level reasoning to low-level trajectory planning. Specifically, we begin by constructing large-scale Chain-of-Thought (CoT) annotations on open-source driving-related knowledge datasets, and employ the powerful Qwen3 large language model (LLM) as the critic in RFT to quantify reasoning quality for open-ended questions during reward modeling. Extensive experiments confirm that joint end-to-end RFT yields substantial improvements in both upstream and downstream tasks, enabling OpenREAD to achieve state-of-the-art performance on reasoning and planning benchmarks.