Receita Simples Funciona: Modelos Visão-Linguagem-Ação São Aprendizes Contínuos Naturais com Aprendizagem por Reforço
Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning
March 12, 2026
Autores: Jiaheng Hu, Jay Shim, Chen Tang, Yoonchang Sung, Bo Liu, Peter Stone, Roberto Martin-Martin
cs.AI
Resumo
A Aprendizagem por Reforço Contínua (CRL) para modelos Visão-Linguagem-Ação (VLA) é uma direção promissora para o desenvolvimento de agentes corporificados que se autoaperfeiçoam e podem se adaptar a ambientes abertos e em evolução. No entanto, a sabedoria convencional da aprendizagem contínua sugere que o Ajuste Fino Sequencial (Seq. FT) ingênuo leva ao esquecimento catastrófico, necessitando de estratégias complexas de CRL. Neste trabalho, damos um passo atrás e conduzimos um estudo sistemático de CRL para grandes VLAs pré-treinados, abrangendo três modelos e cinco benchmarks desafiadores de aprendizagem por reforço ao longo da vida. Descobrimos que, ao contrário da crença estabelecida, o simples Seq. FT com adaptação de baixo posto (LoRA) é notavelmente robusto: ele alcança alta plasticidade, exibe pouco ou nenhum esquecimento e mantém uma forte generalização zero-shot, frequentemente superando métodos de CRL mais sofisticados. Por meio de uma análise detalhada, mostramos que essa robustez surge de uma sinergia entre o grande modelo pré-treinado, a adaptação com eficiência de parâmetros e o RL on-policy. Juntos, esses componentes remodelam o compromisso estabilidade-plasticidade, tornando a adaptação contínua estável e escalável. Nossos resultados posicionam o Ajuste Fino Sequencial como um método poderoso para CRL com VLAs e fornecem novos insights sobre a aprendizagem ao longo da vida na era dos grandes modelos. O código está disponível em github.com/UT-Austin-RobIn/continual-vla-rl.
English
Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.