EVOLVE-VLA: Treinamento em Tempo de Teste a partir de Feedback do Ambiente para Modelos de Visão-Linguagem-Ação
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
December 16, 2025
Autores: Zechen Bai, Chen Gao, Mike Zheng Shou
cs.AI
Resumo
A obtenção de uma inteligência corporal verdadeiramente adaptativa requer agentes que aprendam não apenas pela imitação de demonstrações estáticas, mas pela melhoria contínua por meio da interação com o ambiente, de forma análoga à maneira como os humanos dominam habilidades através da prática. Os modelos Visão-Linguagem-Ação (VLA) avançaram a manipulação robótica ao aproveitar grandes modelos de linguagem, mas permanecem fundamentalmente limitados pelo Ajuste Fino Supervisionado (SFT): exigem centenas de demonstrações por tarefa, memorizam trajetórias de forma rígida e falham em se adaptar quando as condições de implantação se desviam do treinamento. Apresentamos o EVOLVE-VLA, uma estrutura de treinamento em tempo de teste que permite aos VLAs adaptarem-se continuamente através da interação com o ambiente, com demonstrações mínimas ou mesmo zero específicas da tarefa. O principal desafio técnico é substituir os sinais de recompensa oráculo (indisponíveis no tempo de teste) por feedback autônomo. Resolvemos isso por meio de um estimador de progresso aprendido que fornece feedback denso e, criticamente, projetamos nossa estrutura para "domar" esse sinal inerentemente ruidoso por meio de dois mecanismos: (1) um mecanismo de estimativa de progresso acumulativo que suaviza as estimativas pontuais ruidosas, e (2) uma estratégia de extensão progressiva do horizonte que permite uma evolução gradual da política. O EVOLVE-VLA alcança ganhos substanciais: +8,6% em tarefas de longo horizonte, +22,0% em aprendizado single-shot (1-shot) e permite a generalização entre tarefas – alcançando 20,8% de sucesso em tarefas não vistas durante o treinamento e sem demonstrações específicas da tarefa (contra 0% para o SFT puro). A análise qualitativa revela capacidades emergentes ausentes nas demonstrações, incluindo recuperação de erros e estratégias novas. Este trabalho representa um passo crítico em direção a VLAs que verdadeiramente aprendem e se adaptam, transcendendo a imitação estática em direção a melhorias contínuas e autônomas.
English
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.