Ricette Semplici Funzionano: I Modelli Visione-Linguaggio-Azione Sono Apprenditori Continui Naturali con l'Apprendimento per Rinforzo

Abstract

L'Apprendimento per Rinforzo Continuo (CRL) per modelli Visione-Linguaggio-Azione (VLA) rappresenta una direzione promettente verso lo sviluppo di agenti incarnati auto-miglioranti in grado di adattarsi in ambienti aperti ed evolutivi. Tuttavia, la conoscenza convenzionale nell'apprendimento continuo suggerisce che un semplice Fine-Tuning Sequenziale (Seq. FT) porti a una dimenticanza catastrofica, rendendo necessarie strategie CRL complesse. In questo lavoro, facciamo un passo indietro e conduciamo uno studio sistematico del CRL per grandi modelli VLA preaddestrati, valutando tre modelli su cinque benchmark impegnativi di RL lifelong. Scopriamo che, contrariamente alle credenze consolidate, il semplice Seq. FT con adattamento a basso rango (LoRA) è notevolmente efficace: raggiunge un'elevata plasticità, mostra poca o nessuna dimenticanza e mantiene una forte generalizzazione zero-shot, superando spesso metodi CRL più sofisticati. Attraverso un'analisi dettagliata, dimostriamo che questa robustezza deriva da una sinergia tra il grande modello preaddestrato, l'adattamento efficiente dei parametri e il RL on-policy. Insieme, questi componenti rimodellano il compromesso stabilità-plasticità, rendendo l'adattamento continuo sia stabile che scalabile. I nostri risultati posizionano il Fine-Tuning Sequenziale come un metodo potente per il RL continuo con i VLA e forniscono nuove intuizioni sull'apprendimento lifelong nell'era dei modelli di grandi dimensioni. Il codice è disponibile all'indirizzo github.com/UT-Austin-RobIn/continual-vla-rl.

English

Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.

Ricette Semplici Funzionano: I Modelli Visione-Linguaggio-Azione Sono Apprenditori Continui Naturali con l'Apprendimento per Rinforzo

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Abstract

Support