ChatPaper.aiChatPaper

EVOLVE-VLA: Addestramento al Momento del Test Basato sul Feedback Ambientale per Modelli Visione-Linguaggio-Azione

EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

December 16, 2025
Autori: Zechen Bai, Chen Gao, Mike Zheng Shou
cs.AI

Abstract

Il raggiungimento di una vera intelligenza incarnata adattiva richiede agenti che apprendano non solo imitando dimostrazioni statiche, ma migliorando continuamente attraverso l'interazione ambientale, in modo analogo a come gli esseri umani padroneggiano le abilità con la pratica. I modelli Visione-Linguaggio-Azione (VLA) hanno fatto progredire la manipolazione robotica sfruttando i grandi modelli linguistici, ma rimangono fondamentalmente limitati dalla messa a punto supervisionata (SFT): richiedono centinaia di dimostrazioni per compito, memorizzano rigidamente le traiettorie e falliscono nell'adattarsi quando le condizioni di dispiegamento si discostano dall'addestramento. Introduciamo EVOLVE-VLA, un framework di addestramento al momento del test che consente ai VLA di adattarsi continuamente attraverso l'interazione con l'ambiente, con dimostrazioni specifiche per il compito minime o nulle. La sfida tecnica chiave è sostituire i segnali di ricompensa oracle (non disponibili durante il test) con un feedback autonomo. Affrontiamo questo problema attraverso uno stimatore di progresso appreso che fornisce un feedback denso e, in modo cruciale, progettiamo il nostro framework per "domare" questo segnale intrinsecamente rumoroso mediante due meccanismi: (1) un meccanismo di stima del progresso accumulativo che smorza le stime puntuali rumorose, e (2) una strategia di estensione progressiva dell'orizzonte che consente un'evoluzione graduale della politica. EVOLVE-VLA ottiene miglioramenti sostanziali: +8,6% su compiti a lungo orizzonte, +22,0% nell'apprendimento one-shot e abilita la generalizzazione cross-task – raggiungendo il 20,8% di successo su compiti non visti senza un addestramento con dimostrazioni specifiche (contro lo 0% della SFT pura). L'analisi qualitativa rivela capacità emergenti assenti nelle dimostrazioni, inclusi il recupero dagli errori e strategie innovative. Questo lavoro rappresenta un passo critico verso VLA che apprendono e si adattano veramente, superando l'imitazione statica verso continui miglioramenti autonomi.
English
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.
PDF61December 18, 2025