Простой рецепт работает: модели «зрение-язык-действие» являются естественными инкрементными учениками с подкрепляющим обучением

Аннотация

Непрерывное обучение с подкреплением (CRL) для моделей «зрение–язык–действие» (VLA) — это перспективное направление для создания самосовершенствующихся воплощенных агентов, способных адаптироваться в открытых, эволюционирующих средах. Однако общепринятые представления о непрерывном обучении предполагают, что наивная последовательная тонкая настройка (Seq. FT) приводит к катастрофическому забыванию, что требует применения сложных стратегий CRL. В данной работе мы делаем шаг назад и проводим систематическое исследование CRL для крупных предварительно обученных VLA-моделей на примере трех архитектур и пяти сложных бенчмарков обучения с подкреплением в течение жизненного цикла. Мы обнаруживаем, что, вопреки устоявшемуся мнению, простая Seq. FT с низкоранговой адаптацией (LoRA) демонстрирует remarkably высокую эффективность: она обеспечивает высокую пластичность, проявляет незначительное или полное отсутствие забывания и сохраняет сильную способность к обобщению «с нуля», часто превосходя более сложные методы CRL. Благодаря детальному анализу мы показываем, что эта устойчивость возникает благодаря синергии между крупной предварительно обученной моделью, параметрически эффективной адаптацией и обучением с подкреплением на стратегии. В совокупности эти компоненты изменяют компромисс между стабильностью и пластичностью, делая непрерывную адаптацию как стабильной, так и масштабируемой. Наши результаты позиционируют последовательную тонкую настройку как мощный метод для непрерывного обучения с подкреплением с VLA-моделями и дают новое понимание обучения в течение жизненного цикла в эпоху больших моделей. Код доступен по адресу github.com/UT-Austin-RobIn/continual-vla-rl.

English

Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.

Простой рецепт работает: модели «зрение-язык-действие» являются естественными инкрементными учениками с подкрепляющим обучением

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Аннотация

Support