ChatPaper.aiChatPaper

OpenREAD: Усиленное открытое логическое рассуждение для сквозного автономного вождения с использованием LLM-как-критика

OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic

December 1, 2025
Авторы: Songyan Zhang, Wenhui Huang, Zhan Chen, Chua Jiahao Collister, Qihang Huang, Chen Lv
cs.AI

Аннотация

В последнее время двухэтапные стратегии тонкой настройки, такие как приобретение базовых знаний о вождении через контролируемую тонкую настройку (SFT) и дальнейшее улучшение принятия решений и планирования с помощью тонкой настройки с подкреплением (RFT), продемонстрировали значительный потенциал для развития парадигмы автономного вождения, основанной на знаниях. Однако обучающая природа SFT по-прежнему ограничивает обобщающую способность логического вывода, тем самым сдерживая раскрытие полного потенциала производительности вождения. В то же время современные подходы RFT в основном применяются к downstream-задачам, поскольку семантическое понимание сцены является открытой проблемой, для которой трудно количественно определить соответствующие вознаграждения. Для преодоления этих ограничений мы предлагаем OpenREAD — основанную на визуально-языковой модели (VLM) OPEN-ended REasoning reinforced архитектуру автономного вождения, которая обеспечивает сквозную RFT по всему спектру — от логического вывода высокого уровня до планирования траектории низкого уровня. В частности, мы начинаем с создания масштабных аннотаций типа «рассуждение по цепочке» (Chain-of-Thought, CoT) на открытых наборах данных, связанных со знаниями о вождении, и используем мощную большую языковую модель (LLM) Qwen3 в роли критика в рамках RFT для количественной оценки качества рассуждений на открытые вопросы при моделировании вознаграждений. Многочисленные эксперименты подтверждают, что совместная сквозная RFT приводит к существенному улучшению как в upstream-, так и в downstream-задачах, позволяя OpenREAD достичь наивысшей производительности на бенчмарках логического вывода и планирования.
English
Recently, two-stage fine-tuning strategies, e.g., acquiring essential driving knowledge through supervised fine-tuning (SFT) and further enhancing decision-making and planning via reinforcement fine-tuning (RFT), have shown strong potential in advancing the knowledge-driven autonomous driving (AD) paradigm. However, the learning nature of SFT still limits the generalization of reasoning, thereby constraining the full potential of driving performance. Meanwhile, current RFT approaches are primarily applied to downstream tasks, since scene understanding is an open-ended problem where corresponding rewards are difficult to quantify. To address these limitations, we propose OpenREAD, an OPEN-ended REasoning reinforced vision-language model (VLM)-based autonomous driving (AD) framework that enables end-to-end RFT across the full spectrum from high-level reasoning to low-level trajectory planning. Specifically, we begin by constructing large-scale Chain-of-Thought (CoT) annotations on open-source driving-related knowledge datasets, and employ the powerful Qwen3 large language model (LLM) as the critic in RFT to quantify reasoning quality for open-ended questions during reward modeling. Extensive experiments confirm that joint end-to-end RFT yields substantial improvements in both upstream and downstream tasks, enabling OpenREAD to achieve state-of-the-art performance on reasoning and planning benchmarks.
PDF11December 3, 2025