Receta Simple Funciona: Los Modelos Visión-Lenguaje-Acción son Aprendices Continuos Naturales con Aprendizaje por Refuerzo

Resumen

El Aprendizaje por Refuerzo Continuo (CRL) para modelos Visión-Lenguaje-Acción (VLA) es una dirección prometedora hacia agentes corporizados que se auto-mejoran y pueden adaptarse en entornos abiertos y en evolución. Sin embargo, la sabiduría convencional del aprendizaje continuo sugiere que el Ajuste Fino Secuencial (Seq. FT) ingenuo conduce al olvido catastrófico, lo que hace necesarias estrategias complejas de CRL. En este trabajo, damos un paso atrás y realizamos un estudio sistemático de CRL para VLAs grandes preentrenados, evaluando tres modelos en cinco benchmarks desafiantes de aprendizaje por refuerzo de por vida. Descubrimos que, contrariamente a la creencia establecida, el simple Seq. FT con adaptación de bajo rango (LoRA) es notablemente sólido: logra una alta plasticidad, exhibe poco o ningún olvido y mantiene una fuerte generalización zero-shot, superando frecuentemente a métodos de CRL más sofisticados. Mediante un análisis detallado, demostramos que esta robustez surge de una sinergia entre el modelo grande preentrenado, la adaptación eficiente de parámetros y el aprendizaje por refuerzo on-policy. En conjunto, estos componentes reconfiguran el equilibrio estabilidad-plasticidad, haciendo que la adaptación continua sea tanto estable como escalable. Nuestros resultados posicionan al Ajuste Fino Secuencial como un método poderoso para el aprendizaje por refuerzo continuo con VLAs y aportan nuevas perspectivas sobre el aprendizaje de por vida en la era de los modelos grandes. El código está disponible en github.com/UT-Austin-RobIn/continual-vla-rl.

English

Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.

Receta Simple Funciona: Los Modelos Visión-Lenguaje-Acción son Aprendices Continuos Naturales con Aprendizaje por Refuerzo

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Resumen

Support