ChatPaper.aiChatPaper

Found-RL : Renforcement de l'apprentissage par renforcement par des modèles de fondation pour la conduite autonome

Found-RL: foundation model-enhanced reinforcement learning for autonomous driving

February 11, 2026
papers.authors: Yansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) est devenu un paradigme dominant pour la conduite autonome de bout en bout. Cependant, le RL souffre d'une inefficacité en termes d'échantillons et d'un manque d'interprétabilité sémantique dans les scénarios complexes. Les modèles fondateurs, en particulier les modèles vision-langage (VLM), peuvent atténuer ce problème en offrant des connaissances riches et sensibles au contexte, mais leur latence d'inférence élevée entrave leur déploiement dans les boucles d'entraînement RL haute fréquence. Pour combler cette lacune, nous présentons Found-RL, une plateforme conçue pour améliorer efficacement le RL pour la conduite autonome en utilisant des modèles fondateurs. Une innovation clé est le cadre d'inférence par lots asynchrone, qui découple le raisonnement lourd des VLM de la boucle de simulation, résolvant efficacement les goulots d'étranglement de latence pour supporter un apprentissage en temps réel. Nous introduisons divers mécanismes de supervision : la Régularisation par Marge de Valeur (VMR) et le Guidage d'Action Pondéré par l'Avantage (AWAG) pour distiller efficacement des suggestions d'action expertes similaires à celles d'un VLM dans la politique de RL. De plus, nous adoptons CLIP à haut débit pour le façonnage de récompenses denses. Nous adressons la cécité dynamique de CLIP via un Alignement d'Action Contrastif Conditionnel, qui conditionne les prompts sur la vitesse/commande discrétisée et produit un bonus normalisé, basé sur une marge, à partir d'un score action-ancre spécifique au contexte. Found-RL fournit un pipeline de bout en bout pour l'intégration de VLM affinés et montre qu'un modèle RL léger peut atteindre des performances proches de celles d'un VLM par rapport à des VLM de milliards de paramètres tout en maintenant une inférence en temps réel (environ 500 FPS). Le code, les données et les modèles seront publiquement disponibles à l'adresse https://github.com/ys-qu/found-rl.
English
Reinforcement Learning (RL) has emerged as a dominant paradigm for end-to-end autonomous driving (AD). However, RL suffers from sample inefficiency and a lack of semantic interpretability in complex scenarios. Foundation Models, particularly Vision-Language Models (VLMs), can mitigate this by offering rich, context-aware knowledge, yet their high inference latency hinders deployment in high-frequency RL training loops. To bridge this gap, we present Found-RL, a platform tailored to efficiently enhance RL for AD using foundation models. A core innovation is the asynchronous batch inference framework, which decouples heavy VLM reasoning from the simulation loop, effectively resolving latency bottlenecks to support real-time learning. We introduce diverse supervision mechanisms: Value-Margin Regularization (VMR) and Advantage-Weighted Action Guidance (AWAG) to effectively distill expert-like VLM action suggestions into the RL policy. Additionally, we adopt high-throughput CLIP for dense reward shaping. We address CLIP's dynamic blindness via Conditional Contrastive Action Alignment, which conditions prompts on discretized speed/command and yields a normalized, margin-based bonus from context-specific action-anchor scoring. Found-RL provides an end-to-end pipeline for fine-tuned VLM integration and shows that a lightweight RL model can achieve near-VLM performance compared with billion-parameter VLMs while sustaining real-time inference (approx. 500 FPS). Code, data, and models will be publicly available at https://github.com/ys-qu/found-rl.
PDF02February 18, 2026