Found-RL: 자율 주행을 위한 파운데이션 모델 강화 강화 학습
Found-RL: foundation model-enhanced reinforcement learning for autonomous driving
February 11, 2026
저자: Yansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen
cs.AI
초록
강화학습(Reinforcement Learning, RL)은 단일 종단간(end-to-end) 자율주행(Autonomous Driving, AD)을 위한 주요 패러다임으로 부상했습니다. 그러나 RL은 복잡한 시나리오에서 샘플 효율성이 낮고 의미론적 해석 가능성이 부족한 한계를 지닙니다. 파운데이션 모델, 특히 비전-언어 모델(Vision-Language Models, VLMs)은 풍부하고 상황 인식적인 지식을 제공하여 이러한 문제를 완화할 수 있지만, 높은 추론 지연시간으로 인해 고주파수 RL 훈련 루프에의 배포가 어렵습니다. 이러한 격차를 해결하기 위해 우리는 파운데이션 모델을 활용하여 자율주행 RL을 효율적으로 향상시키기 위해 특화된 플랫폼인 Found-RL을 제시합니다. 핵심 혁신은 비동기식 배치 추론 프레임워크로, 무거운 VLM 추론 작업을 시뮬레이션 루프에서 분리하여 지연시간 병목 현상을 효과적으로 해결하고 실시간 학습을 지원합니다. 우리는 전문가와 같은 VLM 행동 제안을 RL 정책에 효과적으로 증류하기 위해 다양한 지도 메커니즘인 값-마진 정규화(Value-Margin Regularization, VMR)와 Advantage-Weighted Action Guidance (AWAG)를 도입했습니다. 또한, 조밀한 보상 형성(reward shaping)을 위해 고처리량 CLIP을 채택합니다. 우리는 조건부 대조 행동 정렬(Conditional Contrastive Action Alignment)을 통해 CLIP의 동적 상황 인식 부족 문제를 해결하는데, 이는 이산화된 속도/주행 명령에 따라 프롬프트를 조건화하고 상황별 행동-기준점 채점에서 정규화된 마진 기반 보너스를 생성합니다. Found-RL은 미세 조정된 VLM 통합을 위한 종단간 파이프라인을 제공하며, 경량화된 RL 모델이 수십억 개의 파라미터를 가진 VLM에 버금가는 성능을 실시간 추론(약 500 FPS)을 유지하면서 달성할 수 있음을 보여줍니다. 코드, 데이터 및 모델은 https://github.com/ys-qu/found-rl에서 공개될 예정입니다.
English
Reinforcement Learning (RL) has emerged as a dominant paradigm for end-to-end autonomous driving (AD). However, RL suffers from sample inefficiency and a lack of semantic interpretability in complex scenarios. Foundation Models, particularly Vision-Language Models (VLMs), can mitigate this by offering rich, context-aware knowledge, yet their high inference latency hinders deployment in high-frequency RL training loops. To bridge this gap, we present Found-RL, a platform tailored to efficiently enhance RL for AD using foundation models. A core innovation is the asynchronous batch inference framework, which decouples heavy VLM reasoning from the simulation loop, effectively resolving latency bottlenecks to support real-time learning. We introduce diverse supervision mechanisms: Value-Margin Regularization (VMR) and Advantage-Weighted Action Guidance (AWAG) to effectively distill expert-like VLM action suggestions into the RL policy. Additionally, we adopt high-throughput CLIP for dense reward shaping. We address CLIP's dynamic blindness via Conditional Contrastive Action Alignment, which conditions prompts on discretized speed/command and yields a normalized, margin-based bonus from context-specific action-anchor scoring. Found-RL provides an end-to-end pipeline for fine-tuned VLM integration and shows that a lightweight RL model can achieve near-VLM performance compared with billion-parameter VLMs while sustaining real-time inference (approx. 500 FPS). Code, data, and models will be publicly available at https://github.com/ys-qu/found-rl.