OpenREAD: Razonamiento de Extremo a Extremo Reforzado para la Conducción Autónoma con LLM-como-Crítico
OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic
December 1, 2025
Autores: Songyan Zhang, Wenhui Huang, Zhan Chen, Chua Jiahao Collister, Qihang Huang, Chen Lv
cs.AI
Resumen
Recientemente, las estrategias de ajuste fino en dos etapas, por ejemplo, adquirir conocimientos esenciales de conducción mediante ajuste fino supervisado (SFT) y mejorar aún más la toma de decisiones y la planificación mediante ajuste fino por refuerzo (RFT), han mostrado un gran potencial para avanzar en el paradigma de la conducción autónoma (AD) basada en el conocimiento. Sin embargo, la naturaleza del aprendizaje del SFT aún limita la generalización del razonamiento, restringiendo así todo el potencial del rendimiento de conducción. Mientras tanto, los enfoques actuales de RFT se aplican principalmente a tareas posteriores, dado que la comprensión de escenas es un problema abierto donde las recompensas correspondientes son difíciles de cuantificar. Para abordar estas limitaciones, proponemos OpenREAD, un marco de conducción autónoma (AD) basado en un modelo de lenguaje visual (VLM) reforzado con razonamiento abierto (OPEN-ended REasoning reinforced), que permite un RFT integral de extremo a extremo en todo el espectro, desde el razonamiento de alto nivel hasta la planificación de trayectorias de bajo nivel. Específicamente, comenzamos construyendo anotaciones de Cadena de Pensamiento (CoT) a gran escala en conjuntos de datos de conocimiento de código abierto relacionados con la conducción, y empleamos el potente modelo de lenguaje grande (LLM) Qwen3 como crítico en el RFT para cuantificar la calidad del razonamiento en preguntas abiertas durante el modelado de recompensas. Experimentos exhaustivos confirman que el RFT conjunto de extremo a extremo produce mejoras sustanciales tanto en tareas iniciales como posteriores, permitiendo a OpenREAD alcanzar un rendimiento de vanguardia en benchmarks de razonamiento y planificación.
English
Recently, two-stage fine-tuning strategies, e.g., acquiring essential driving knowledge through supervised fine-tuning (SFT) and further enhancing decision-making and planning via reinforcement fine-tuning (RFT), have shown strong potential in advancing the knowledge-driven autonomous driving (AD) paradigm. However, the learning nature of SFT still limits the generalization of reasoning, thereby constraining the full potential of driving performance. Meanwhile, current RFT approaches are primarily applied to downstream tasks, since scene understanding is an open-ended problem where corresponding rewards are difficult to quantify. To address these limitations, we propose OpenREAD, an OPEN-ended REasoning reinforced vision-language model (VLM)-based autonomous driving (AD) framework that enables end-to-end RFT across the full spectrum from high-level reasoning to low-level trajectory planning. Specifically, we begin by constructing large-scale Chain-of-Thought (CoT) annotations on open-source driving-related knowledge datasets, and employ the powerful Qwen3 large language model (LLM) as the critic in RFT to quantify reasoning quality for open-ended questions during reward modeling. Extensive experiments confirm that joint end-to-end RFT yields substantial improvements in both upstream and downstream tasks, enabling OpenREAD to achieve state-of-the-art performance on reasoning and planning benchmarks.