단순한 레시피의 효과: 시각-언어-행동 모델은 강화 학습을 통한 자연스러운 지속 학습자
Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning
March 12, 2026
저자: Jiaheng Hu, Jay Shim, Chen Tang, Yoonchang Sung, Bo Liu, Peter Stone, Roberto Martin-Martin
cs.AI
초록
비전-언어-행동(VLA) 모델을 위한 지속 강화 학습(CRL)은 개방적이고 진화하는 환경에 적응 가능한 자기 발전형 구현 에이전트를 위한 유망한 방향입니다. 그러나 지속 학습에 대한 기존 통념은 단순한 순차 미세 조정(Seq. FT)이 파괴적 망각을 초래하여 복잡한 CRL 전략이 필요하다고 제시해 왔습니다. 본 연구에서는 한 걸음 물러서 세 가지 모델과 다섯 가지 도전적인 평생 RL 벤치마크에 걸쳐 대규모 사전 학습된 VLA의 CRL을 체계적으로 연구합니다. 우리는 기존 신념과 달리, 로우 랭크 적응(LoRA)을 적용한 단순한 Seq. FT가 매우 강력함을 발견했습니다. 이 방법은 높은 가소성을 달성하고, 거의 또는 전혀 망각을 보이지 않으며, 강력한 제로샷 일반화 능력을 유지하며, 종종 더 정교한 CRL 방법들을 능가했습니다. 상세 분석을 통해 이러한 강건성은 대규모 사전 학습 모델, 매개변수 효율적 적응, 온-정책 RL 간의 시너지에서 비롯됨을 보여줍니다. 이러한 구성 요소들이 함께 안정성-가소성 트레이드오프를 재구성하여 지속적 적응을 안정적이고 확장 가능하게 만듭니다. 우리의 결과는 순차 미세 조정을 VLA 기반 지속 RL의 강력한 방법으로 자리매김하며, 대규모 모델 시대의 평생 학습에 대한 새로운 통찰을 제공합니다. 코드는 github.com/UT-Austin-RobIn/continual-vla-rl에서 확인할 수 있습니다.
English
Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.