OpenREAD: LLM 비판가 기반 종단간 자율주행을 위한 강화된 개방형 추론
OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic
December 1, 2025
저자: Songyan Zhang, Wenhui Huang, Zhan Chen, Chua Jiahao Collister, Qihang Huang, Chen Lv
cs.AI
초록
최근 지식 기반 자율주행(AD) 패러다임의 발전을 위해 지도 미세조정(SFT)을 통해 핵심 주행 지식을 습득하고, 강화 미세조정(RFT)을 통해 의사결정 및 계획 능력을 추가로 향상시키는 2단계 미세조정 전략이 강력한 잠재력을 보여주고 있습니다. 그러나 SFT의 학습 특성은 여전히 추론의 일반화를 제한하여 주행 성능의 전체 잠재력을 억제하고 있습니다. 한편, 현재의 RFT 접근법은 장면 이해가 해당 보상을 정량화하기 어려운 개방형 문제이기 때문에 주로 하류 작업에 적용되고 있습니다. 이러한 한계를 해결하기 위해 본 연구에서는 상위 수준의 추론부터 하위 수준의 경로 계획에 이르는 전체 영역에서 종단간 RFT를 가능하게 하는 개방형 추론 강화 비전-언어 모델(VLM) 기반 자율주행 프레임워크인 OpenREAD를 제안합니다. 구체적으로, 우리는 먼저 오픈소스 주행 관련 지식 데이터셋에 대규모 사고 연쇄(CoT) 주석을 구축하고, 강력한 Qwen3 대형 언어 모델(LLM)을 RFT의 비평가로 활용하여 보상 모델링 과정에서 개방형 질문에 대한 추론 품질을 정량화합니다. 폭넓은 실험을 통해 종단간 RFT의 공동 적용이 상류 및 하류 작업 모두에서 상당한 성능 향상을 가져오며, OpenREAD가 추론 및 계획 벤치마크에서 최첨단 성능을 달성할 수 있음을 확인했습니다.
English
Recently, two-stage fine-tuning strategies, e.g., acquiring essential driving knowledge through supervised fine-tuning (SFT) and further enhancing decision-making and planning via reinforcement fine-tuning (RFT), have shown strong potential in advancing the knowledge-driven autonomous driving (AD) paradigm. However, the learning nature of SFT still limits the generalization of reasoning, thereby constraining the full potential of driving performance. Meanwhile, current RFT approaches are primarily applied to downstream tasks, since scene understanding is an open-ended problem where corresponding rewards are difficult to quantify. To address these limitations, we propose OpenREAD, an OPEN-ended REasoning reinforced vision-language model (VLM)-based autonomous driving (AD) framework that enables end-to-end RFT across the full spectrum from high-level reasoning to low-level trajectory planning. Specifically, we begin by constructing large-scale Chain-of-Thought (CoT) annotations on open-source driving-related knowledge datasets, and employ the powerful Qwen3 large language model (LLM) as the critic in RFT to quantify reasoning quality for open-ended questions during reward modeling. Extensive experiments confirm that joint end-to-end RFT yields substantial improvements in both upstream and downstream tasks, enabling OpenREAD to achieve state-of-the-art performance on reasoning and planning benchmarks.