Einfaches Rezept funktioniert: Vision-Sprache-Handlungs-Modelle sind natürliche kontinuierliche Lerner mit Verstärkendem Lernen

Zusammenfassung

Continual Reinforcement Learning (CRL) für Vision-Language-Action (VLA)-Modelle ist ein vielversprechender Ansatz für sich selbst verbessernde, verkörperte Agenten, die sich in offenen, sich entwickelnden Umgebungen anpassen können. Die konventionelle Einsicht aus dem Continual Learning legt jedoch nahe, dass naives Sequentielles Fine-Tuning (Seq. FT) zu katastrophalem Vergessen führt und somit komplexe CRL-Strategien erfordert. In dieser Arbeit treten wir einen Schritt zurück und führen eine systematische Untersuchung von CRL für groß angelegte, vortrainierte VLA-Modelle über drei Modelle und fünf anspruchsvolle lebenslange RL-Benchmarks hinweg durch. Wir stellen fest, dass – entgegen der etablierten Meinung – einfaches Seq. FT mit Low-Rank Adaptation (LoRA) bemerkenswert leistungsstark ist: Es erreicht eine hohe Plastizität, zeigt wenig bis kein Vergessen und bewahrt eine starke Zero-Shot-Generalisation, wobei es häufig anspruchsvollere CRL-Methoden übertrifft. Durch eine detaillierte Analyse zeigen wir, dass diese Robustheit aus einer Synergie zwischen dem groß angelegten vortrainierten Modell, parameter-effizienter Adaptation und On-Policy-Reinforcement-Learning entsteht. Gemeinsam verändern diese Komponenten den Stabilitäts-Plastizitäts-Kompromiss und machen kontinuierliche Anpassung sowohl stabil als auch skalierbar. Unsere Ergebnisse positionieren Sequentielles Fine-Tuning als eine leistungsfähige Methode für Continual RL mit VLA-Modellen und liefern neue Einblicke in lebenslanges Lernen im Zeitalter großer Modelle. Code ist verfügbar unter github.com/UT-Austin-RobIn/continual-vla-rl.

English

Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.

Einfaches Rezept funktioniert: Vision-Sprache-Handlungs-Modelle sind natürliche kontinuierliche Lerner mit Verstärkendem Lernen

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Zusammenfassung

Support