OpenREAD: Raciocínio de Fim Aberto Reforçado para Condução Autônoma de Ponta a Ponta com LLM-como-Crítico

Resumo

Recentemente, estratégias de ajuste fino em duas etapas, como a aquisição de conhecimento essencial de condução através do ajuste fino supervisionado (SFT) e o aprimoramento adicional da tomada de decisão e do planeamento via ajuste fino por reforço (RFT), têm demonstrado forte potencial para avançar o paradigma de condução autónoma (AD) baseada em conhecimento. No entanto, a natureza de aprendizagem do SFT ainda limita a generalização do raciocínio, restringindo assim todo o potencial do desempenho de condução. Entretanto, as abordagens atuais de RFT são aplicadas principalmente a tarefas *downstream*, uma vez que a compreensão de cenários é um problema de natureza aberta onde as recompensas correspondentes são difíceis de quantificar. Para superar estas limitações, propomos o OpenREAD, uma estrutura de AD baseada em modelos de linguagem visual (VLM) com raciocínio aberto reforçado (OPEN-ended REasoning reinforced), que permite o RFT de ponta a ponta em todo o espectro, desde o raciocínio de alto nível até ao planeamento de trajetória de baixo nível. Especificamente, começamos por construir anotações em grande escala de Cadeia de Pensamento (Chain-of-Thought, CoT) em conjuntos de dados de conhecimento relacionados com a condução de código aberto, e empregamos o poderoso modelo de linguagem grande (LLM) Qwen3 como crítico no RFT para quantificar a qualidade do raciocínio para questões de resposta aberta durante a modelação de recompensas. Experiências extensivas confirmam que o RFT conjunto de ponta a ponta produz melhorias substanciais tanto em tarefas *upstream* como *downstream*, permitindo ao OpenREAD alcançar um desempenho de ponta em *benchmarks* de raciocínio e planeamento.

English

Recently, two-stage fine-tuning strategies, e.g., acquiring essential driving knowledge through supervised fine-tuning (SFT) and further enhancing decision-making and planning via reinforcement fine-tuning (RFT), have shown strong potential in advancing the knowledge-driven autonomous driving (AD) paradigm. However, the learning nature of SFT still limits the generalization of reasoning, thereby constraining the full potential of driving performance. Meanwhile, current RFT approaches are primarily applied to downstream tasks, since scene understanding is an open-ended problem where corresponding rewards are difficult to quantify. To address these limitations, we propose OpenREAD, an OPEN-ended REasoning reinforced vision-language model (VLM)-based autonomous driving (AD) framework that enables end-to-end RFT across the full spectrum from high-level reasoning to low-level trajectory planning. Specifically, we begin by constructing large-scale Chain-of-Thought (CoT) annotations on open-source driving-related knowledge datasets, and employ the powerful Qwen3 large language model (LLM) as the critic in RFT to quantify reasoning quality for open-ended questions during reward modeling. Extensive experiments confirm that joint end-to-end RFT yields substantial improvements in both upstream and downstream tasks, enabling OpenREAD to achieve state-of-the-art performance on reasoning and planning benchmarks.

OpenREAD: Raciocínio de Fim Aberto Reforçado para Condução Autônoma de Ponta a Ponta com LLM-como-Crítico

OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic

Resumo

Support