Found-RL: Aprendizaje por refuerzo potenciado por modelos fundacionales para la conducción autónoma
Found-RL: foundation model-enhanced reinforcement learning for autonomous driving
February 11, 2026
Autores: Yansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen
cs.AI
Resumen
El aprendizaje por refuerzo (RL) se ha consolidado como un paradigma dominante para la conducción autónoma (AD) de extremo a extremo. Sin embargo, el RL adolece de ineficiencia muestral y falta de interpretabilidad semántica en escenarios complejos. Los Modelos Fundacionales, particularmente los Modelos de Visión y Lenguaje (VLM), pueden mitigar esto al ofrecer conocimiento rico y consciente del contexto, aunque su alta latencia de inferencia dificulta su despliegue en bucles de entrenamiento de RL de alta frecuencia. Para salvar esta brecha, presentamos Found-RL, una plataforma diseñada para mejorar eficientemente el RL para AD utilizando modelos fundacionales. Una innovación central es el marco de inferencia por lotes asíncrona, que desacopla el costoso razonamiento de los VLM del bucle de simulación, resolviendo efectivamente los cuellos de botella de latencia para apoyar el aprendizaje en tiempo real. Introducimos diversos mecanismos de supervisión: la Regularización de Margen de Valor (VMR) y la Guía de Acciones Ponderada por Ventaja (AWAG), para destilar eficazmente las sugerencias de acción similares a las de un experto VLM en la política de RL. Adicionalmente, adoptamos CLIP de alto rendimiento para la configuración de recompensas densas. Abordamos la ceguera dinámica de CLIP mediante la Alineación de Acciones Condicional por Contraste, que condiciona los prompts a la velocidad/comando discretizados y produce una bonificación normalizada basada en márgenes a partir de una puntuación de anclaje de acción específica del contexto. Found-RL proporciona un pipeline integral para la integración de VLM afinados y demuestra que un modelo de RL ligero puede alcanzar un rendimiento cercano al de los VLM con miles de millones de parámetros, manteniendo una inferencia en tiempo real (aprox. 500 FPS). El código, los datos y los modelos estarán disponibles públicamente en https://github.com/ys-qu/found-rl.
English
Reinforcement Learning (RL) has emerged as a dominant paradigm for end-to-end autonomous driving (AD). However, RL suffers from sample inefficiency and a lack of semantic interpretability in complex scenarios. Foundation Models, particularly Vision-Language Models (VLMs), can mitigate this by offering rich, context-aware knowledge, yet their high inference latency hinders deployment in high-frequency RL training loops. To bridge this gap, we present Found-RL, a platform tailored to efficiently enhance RL for AD using foundation models. A core innovation is the asynchronous batch inference framework, which decouples heavy VLM reasoning from the simulation loop, effectively resolving latency bottlenecks to support real-time learning. We introduce diverse supervision mechanisms: Value-Margin Regularization (VMR) and Advantage-Weighted Action Guidance (AWAG) to effectively distill expert-like VLM action suggestions into the RL policy. Additionally, we adopt high-throughput CLIP for dense reward shaping. We address CLIP's dynamic blindness via Conditional Contrastive Action Alignment, which conditions prompts on discretized speed/command and yields a normalized, margin-based bonus from context-specific action-anchor scoring. Found-RL provides an end-to-end pipeline for fine-tuned VLM integration and shows that a lightweight RL model can achieve near-VLM performance compared with billion-parameter VLMs while sustaining real-time inference (approx. 500 FPS). Code, data, and models will be publicly available at https://github.com/ys-qu/found-rl.