Found-RL: Foundation-Model-verstärktes Reinforcement Learning für autonomes Fahren
Found-RL: foundation model-enhanced reinforcement learning for autonomous driving
February 11, 2026
papers.authors: Yansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen
cs.AI
papers.abstract
Reinforcement Learning (RL) hat sich als dominantes Paradigma für End-to-End autonomes Fahren (AD) etabliert. Allerdings leidet RL unter einer geringen Stichprobeneffizienz und einem Mangel an semantischer Interpretierbarkeit in komplexen Szenarien. Foundation Models, insbesondere Vision-Language Models (VLMs), können dies abmildern, indem sie umfangreiches, kontextbewusstes Wissen bereitstellen, doch ihre hohe Inferenzlatenz behindert den Einsatz in hochfrequenten RL-Trainingsschleifen. Um diese Lücke zu schließen, präsentieren wir Found-RL, eine Plattform, die speziell darauf ausgelegt ist, RL für AD effizient mit Foundation Models zu verbessern. Eine zentrale Innovation ist das Framework für asynchrone Batch-Inferenz, das die rechenintensive VLM-Auswertung von der Simulationsschleife entkoppelt und so Latenzengpässe effektiv beseitigt, um Echtzeitlernen zu ermöglichen. Wir führen verschiedene Überwachungsmechanismen ein: Value-Margin Regularization (VMR) und Advantage-Weighted Action Guidance (AWAG), um expertenähnliche VLM-Aktionsvorschläge effektiv in die RL-Policy zu destillieren. Zusätzlich setzen wir hochdurchsatzfähiges CLIP für dichte Reward-Shaping ein. Wir adressieren CLIPs dynamische Blindheit mittels Conditional Contrastive Action Alignment, das Prompts auf diskretisierte Geschwindigkeit/Befehle konditioniert und einen normalisierten, margenbasierten Bonus aus kontextspezifischer Aktion-Anker-Bewertung erzeugt. Found-RL bietet eine End-to-End-Pipeline für die Integration feinabgestimmter VLMs und zeigt, dass ein leichtgewichtiges RL-Modell eine nahezu VLM-ähnliche Leistung im Vergleich zu milliardenparametrigen VLMs erreichen kann, während es Echtzeit-Inferenz (ca. 500 FPS) beibehält. Code, Daten und Modelle werden unter https://github.com/ys-qu/found-rl öffentlich verfügbar sein.
English
Reinforcement Learning (RL) has emerged as a dominant paradigm for end-to-end autonomous driving (AD). However, RL suffers from sample inefficiency and a lack of semantic interpretability in complex scenarios. Foundation Models, particularly Vision-Language Models (VLMs), can mitigate this by offering rich, context-aware knowledge, yet their high inference latency hinders deployment in high-frequency RL training loops. To bridge this gap, we present Found-RL, a platform tailored to efficiently enhance RL for AD using foundation models. A core innovation is the asynchronous batch inference framework, which decouples heavy VLM reasoning from the simulation loop, effectively resolving latency bottlenecks to support real-time learning. We introduce diverse supervision mechanisms: Value-Margin Regularization (VMR) and Advantage-Weighted Action Guidance (AWAG) to effectively distill expert-like VLM action suggestions into the RL policy. Additionally, we adopt high-throughput CLIP for dense reward shaping. We address CLIP's dynamic blindness via Conditional Contrastive Action Alignment, which conditions prompts on discretized speed/command and yields a normalized, margin-based bonus from context-specific action-anchor scoring. Found-RL provides an end-to-end pipeline for fine-tuned VLM integration and shows that a lightweight RL model can achieve near-VLM performance compared with billion-parameter VLMs while sustaining real-time inference (approx. 500 FPS). Code, data, and models will be publicly available at https://github.com/ys-qu/found-rl.