ChatPaper.aiChatPaper

Found-RL: 自律走行のための基盤モデル拡張強化学習

Found-RL: foundation model-enhanced reinforcement learning for autonomous driving

February 11, 2026
著者: Yansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen
cs.AI

要旨

強化学習(RL)は、エンドツーエンドの自動運転(AD)における主要なパラダイムとして台頭してきた。しかし、RLはサンプル効率が低く、複雑なシナリオでは意味的な解釈可能性に欠けるという課題がある。基盤モデル、特に視覚言語モデル(VLM)は、豊富な文脈認識知識を提供することでこれらの課題を緩和できるが、高い推論遅延が高頻度のRL訓練ループでの展開を妨げている。この隔たりを埋めるため、我々は基盤モデルを活用してAD向けRLを効率的に強化するプラットフォーム「Found-RL」を提案する。中核となる革新は非同期バッチ推論フレームワークであり、重いVLMの推論処理をシミュレーションループから分離することで、遅延のボトルネックを効果的に解消し、実時間学習を可能にする。多様な監督メカニズムとして、Value-Margin正則化(VMR)とAdvantage-Weighted行動指導(AWAG)を導入し、VLMによる専門家レベルの行動提案をRL方策に効果的に蒸留する。さらに、高スループットのCLIPを高密度な報酬形成に採用する。CLIPの動的変化への認識不足に対処するため、離散化された速度/指令に基づくプロンプト条件付けと、文脈依存の行動アンカー評価から正規化されたマージンベースの報酬を生成するConditional Contrastive Action Alignmentを提案する。Found-RLは微調整済みVLM統合のエンドツーエンドパイプラインを提供し、軽量なRLモデルが数十億パラメータのVLMに匹敵する性能を実時間推論(約500 FPS)で達成可能であることを実証する。コード、データ、モデルはhttps://github.com/ys-qu/found-rl で公開予定である。
English
Reinforcement Learning (RL) has emerged as a dominant paradigm for end-to-end autonomous driving (AD). However, RL suffers from sample inefficiency and a lack of semantic interpretability in complex scenarios. Foundation Models, particularly Vision-Language Models (VLMs), can mitigate this by offering rich, context-aware knowledge, yet their high inference latency hinders deployment in high-frequency RL training loops. To bridge this gap, we present Found-RL, a platform tailored to efficiently enhance RL for AD using foundation models. A core innovation is the asynchronous batch inference framework, which decouples heavy VLM reasoning from the simulation loop, effectively resolving latency bottlenecks to support real-time learning. We introduce diverse supervision mechanisms: Value-Margin Regularization (VMR) and Advantage-Weighted Action Guidance (AWAG) to effectively distill expert-like VLM action suggestions into the RL policy. Additionally, we adopt high-throughput CLIP for dense reward shaping. We address CLIP's dynamic blindness via Conditional Contrastive Action Alignment, which conditions prompts on discretized speed/command and yields a normalized, margin-based bonus from context-specific action-anchor scoring. Found-RL provides an end-to-end pipeline for fine-tuned VLM integration and shows that a lightweight RL model can achieve near-VLM performance compared with billion-parameter VLMs while sustaining real-time inference (approx. 500 FPS). Code, data, and models will be publicly available at https://github.com/ys-qu/found-rl.
PDF02February 18, 2026