Eenvoudig Recept Werkt: Vision-Language-Action Modellen zijn Natuurlijke Continue Leerders met Versterkend Leren

Samenvatting

Continual Reinforcement Learning (CRL) voor Vision-Language-Action (VLA)-modellen is een veelbelovende richting voor zelfverbeterende, belichaamde agenten die zich kunnen aanpassen in open, evoluerende omgevingen. De conventionele wijsheid uit continual learning suggereert echter dat naïeve *Sequential Fine-Tuning* (Seq. FT) leidt tot catastrofaal vergeten, wat complexe CRL-strategieën noodzakelijk maakt. In dit werk nemen we een stap terug en voeren we een systematische studie uit naar CRL voor grote, vooraf getrainde VLA's over drie modellen en vijf uitdagende *lifelong RL*-benchmarks. Wij komen tot de bevinding dat, in tegenstelling tot de gevestigde opvatting, eenvoudige Seq. FT met *low-rank adaptation* (LoRA) opmerkelijk krachtig is: het bereikt een hoge plasticiteit, vertoont weinig tot geen vergeten, en behoudt een sterke *zero-shot*-generalisatie, waarbij het vaak geavanceerdere CRL-methoden overtreft. Door gedetailleerde analyse tonen we aan dat deze robuustheid voortkomt uit een synergie tussen het grote vooraf getrainde model, parameter-efficiënte adaptatie en *on-policy RL*. Samen hervormen deze componenten de stabiliteit-plasticiteit afweging, waardoor continue adaptatie zowel stabiel als schaalbaar wordt. Onze resultaten positioneren *Sequential Fine-Tuning* als een krachtige methode voor continual RL met VLA's en bieden nieuwe inzichten in levenslang leren in het tijdperk van grote modellen. Code is beschikbaar op github.com/UT-Austin-RobIn/continual-vla-rl.

English

Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.

Eenvoudig Recept Werkt: Vision-Language-Action Modellen zijn Natuurlijke Continue Leerders met Versterkend Leren

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Samenvatting

Support