ChatPaper.aiChatPaper

Found-RL: автономное вождение с подкрепляемым обучением, усиленным фундаментальными моделями

Found-RL: foundation model-enhanced reinforcement learning for autonomous driving

February 11, 2026
Авторы: Yansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen
cs.AI

Аннотация

Обучение с подкреплением (RL) стало доминирующей парадигмой для сквозного автономного вождения (AD). Однако RL страдает от низкой эффективности использования данных и отсутствия семантической интерпретируемости в сложных сценариях. Фундаментальные модели, в частности Vision-Language Models (VLM), могут смягчить эту проблему, предлагая богатые контекстно-зависимые знания, но их высокая задержка вывода препятствует развертыванию в высокочастотных циклах обучения RL. Чтобы устранить этот разрыв, мы представляем Found-RL — платформу, предназначенную для эффективного улучшения RL для AD с использованием фундаментальных моделей. Ключевым нововведением является асинхронный framework пакетного вывода, который разделяет ресурсоемкие рассуждения VLM и цикл симуляции, эффективно устраняя узкие места, связанные с задержкой, для поддержки обучения в реальном времени. Мы вводим различные механизмы супервизии: регуляризацию по полю значений (Value-Margin Regularization, VMR) и Advantage-Weighted Action Guidance (AWAG) для эффективного переноса экспертных предложений по действиям от VLM в политику RL. Кроме того, мы используем высокопроизводительный CLIP для формирования плотной функции вознаграждения. Мы решаем проблему динамической "слепоты" CLIP с помощью Conditional Contrastive Action Alignment, которая обусловливает промпты дискретизированными скоростью/командой и дает нормализованный бонус на основе разрыва от оценки действий относительно контекстно-зависимых якорей. Found-RL предоставляет сквозной конвейер для интеграции дообученных VLM и демонстрирует, что облегченная модель RL может достичь производительности, близкой к VLM, по сравнению с VLM, имеющими миллиарды параметров, при сохранении вывода в реальном времени (примерно 500 кадров/с). Код, данные и модели будут общедоступны по адресу https://github.com/ys-qu/found-rl.
English
Reinforcement Learning (RL) has emerged as a dominant paradigm for end-to-end autonomous driving (AD). However, RL suffers from sample inefficiency and a lack of semantic interpretability in complex scenarios. Foundation Models, particularly Vision-Language Models (VLMs), can mitigate this by offering rich, context-aware knowledge, yet their high inference latency hinders deployment in high-frequency RL training loops. To bridge this gap, we present Found-RL, a platform tailored to efficiently enhance RL for AD using foundation models. A core innovation is the asynchronous batch inference framework, which decouples heavy VLM reasoning from the simulation loop, effectively resolving latency bottlenecks to support real-time learning. We introduce diverse supervision mechanisms: Value-Margin Regularization (VMR) and Advantage-Weighted Action Guidance (AWAG) to effectively distill expert-like VLM action suggestions into the RL policy. Additionally, we adopt high-throughput CLIP for dense reward shaping. We address CLIP's dynamic blindness via Conditional Contrastive Action Alignment, which conditions prompts on discretized speed/command and yields a normalized, margin-based bonus from context-specific action-anchor scoring. Found-RL provides an end-to-end pipeline for fine-tuned VLM integration and shows that a lightweight RL model can achieve near-VLM performance compared with billion-parameter VLMs while sustaining real-time inference (approx. 500 FPS). Code, data, and models will be publicly available at https://github.com/ys-qu/found-rl.
PDF02February 18, 2026