Found-RL: Aprendizado por Reforço Aprimorado por Modelos de Base para Condução Autônoma
Found-RL: foundation model-enhanced reinforcement learning for autonomous driving
February 11, 2026
Autores: Yansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen
cs.AI
Resumo
O Aprendizado por Reforço (RL) consolidou-se como um paradigma dominante para a condução autónoma (AD) de ponta a ponta. No entanto, o RL sofre de ineficiência amostral e falta de interpretabilidade semântica em cenários complexos. Os Modelos de Base (Foundation Models), particularmente os Modelos de Visão e Linguagem (VLMs), podem mitigar isto ao oferecer conhecimento rico e consciente do contexto, mas a sua elevada latência de inferência dificulta a implantação em ciclos de treino de RL de alta frequência. Para colmatar esta lacuna, apresentamos o Found-RL, uma plataforma concebida para melhorar eficientemente o RL para AD usando modelos de base. Uma inovação central é a arquitetura de inferência assíncrona em lote, que desacopla o pesado raciocínio dos VLMs do ciclo de simulação, resolvendo eficazmente os estrangulamentos de latência para suportar aprendizagem em tempo real. Introduzimos diversos mecanismos de supervisão: a Regularização de Margem de Valor (VMR) e a Orientação de Ação Ponderada pela Vantagem (AWAG) para destilar eficazmente sugestões de ação semelhantes às de um perito VLM na política de RL. Adicionalmente, adotamos o CLIP de alto débito para a modelagem de recompensas densas. Abordamos a cegueira dinâmica do CLIP através do Alinhamento Ação Condicional Contrastivo, que condiciona as instruções (prompts) na velocidade/comando discretizados e produz um bónus normalizado, baseado em margem, a partir de uma pontuação ação-âncora específica do contexto. O Found-RL fornece um pipeline de ponta a ponta para integração de VLM afinado e demonstra que um modelo de RL leve pode alcançar um desempenho próximo ao do VLM em comparação com VLMs de milhares de milhões de parâmetros, mantendo simultaneamente inferência em tempo real (aproximadamente 500 FPS). O código, dados e modelos estarão publicamente disponíveis em https://github.com/ys-qu/found-rl.
English
Reinforcement Learning (RL) has emerged as a dominant paradigm for end-to-end autonomous driving (AD). However, RL suffers from sample inefficiency and a lack of semantic interpretability in complex scenarios. Foundation Models, particularly Vision-Language Models (VLMs), can mitigate this by offering rich, context-aware knowledge, yet their high inference latency hinders deployment in high-frequency RL training loops. To bridge this gap, we present Found-RL, a platform tailored to efficiently enhance RL for AD using foundation models. A core innovation is the asynchronous batch inference framework, which decouples heavy VLM reasoning from the simulation loop, effectively resolving latency bottlenecks to support real-time learning. We introduce diverse supervision mechanisms: Value-Margin Regularization (VMR) and Advantage-Weighted Action Guidance (AWAG) to effectively distill expert-like VLM action suggestions into the RL policy. Additionally, we adopt high-throughput CLIP for dense reward shaping. We address CLIP's dynamic blindness via Conditional Contrastive Action Alignment, which conditions prompts on discretized speed/command and yields a normalized, margin-based bonus from context-specific action-anchor scoring. Found-RL provides an end-to-end pipeline for fine-tuned VLM integration and shows that a lightweight RL model can achieve near-VLM performance compared with billion-parameter VLMs while sustaining real-time inference (approx. 500 FPS). Code, data, and models will be publicly available at https://github.com/ys-qu/found-rl.