Recette Simple Efficace : Les Modèles Vision-Langage-Action sont des Apprenants Continus Naturels grâce à l'Apprentissage par Renforcement

Résumé

L'apprentissage par renforcement continu (CRL) pour les modèles vision-langage-action (VLA) est une voie prometteuse vers la création d'agents incarnés auto-améliorants capables de s'adapter à des environnements ouverts et en évolution. Cependant, la sagesse conventionnelle en apprentissage continu suggère qu'un réglage fin séquentiel (Seq. FT) naïf entraîne un oubli catastrophique, nécessitant des stratégies de CRL complexes. Dans ce travail, nous prenons du recul et menons une étude systématique du CRL pour les grands modèles VLA pré-entraînés, à travers trois modèles et cinq benchmarks exigeants d'apprentissage par renforcement continu. Nous constatons que, contrairement aux idées reçues, le simple réglage fin séquentiel avec adaptation bas rang (LoRA) est remarquablement efficace : il offre une grande plasticité, présente peu ou pas d'oubli, et conserve une forte capacité de généralisation zero-shot, surpassant souvent des méthodes de CRL plus sophistiquées. Grâce à une analyse détaillée, nous montrons que cette robustesse émerge d'une synergie entre le grand modèle pré-entraîné, l'adaptation efficace en paramètres et l'apprentissage par renforcement on-policy. Ensemble, ces composants remodelent le compromis stabilité-plasticité, rendant l'adaptation continue à la fois stable et évolutive. Nos résultats positionnent le réglage fin séquentiel comme une méthode puissante pour le renforcement continu avec les VLA et offrent de nouvelles perspectives sur l'apprentissage continu à l'ère des grands modèles. Le code est disponible à l'adresse github.com/UT-Austin-RobIn/continual-vla-rl.

English

Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.

Recette Simple Efficace : Les Modèles Vision-Langage-Action sont des Apprenants Continus Naturels grâce à l'Apprentissage par Renforcement

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Résumé

Support