EVOLVE-VLA: Training tijdens testen op basis van omgevingsfeedback voor visie-taal-actie-modellen
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
December 16, 2025
Auteurs: Zechen Bai, Chen Gao, Mike Zheng Shou
cs.AI
Samenvatting
Het bereiken van werkelijk adaptieve embodied intelligentie vereist agents die niet alleen leren door het imiteren van statische demonstraties, maar door continu te verbeteren via interactie met de omgeving, wat vergelijkbaar is met hoe mensen vaardigheden beheersen door oefening. Vision-Language-Action (VLA)-modellen hebben robotmanipulatie vooruitgebracht door gebruik te maken van grote taalmodellen, maar worden fundamenteel beperkt door Supervised Finetuning (SFT): ze vereisen honderden demonstraties per taak, memoriseren trajecten rigide en falen in aanpassing wanneer implementatieomstandigheden afwijken van de training. Wij introduceren EVOLVE-VLA, een test-time trainingsframework dat VLA's in staat stelt om continu te adaptteren via omgevingsinteractie met minimale of nul taakspecifieke demonstraties. De belangrijkste technische uitdaging is het vervangen van orakelbeloningssignalen (niet beschikbaar tijdens testen) door autonome feedback. Wij lossen dit op via een geleerde voortgangsschatting die dense feedback verschaft, en cruciaal, we ontwerpen ons framework om dit inherent ruisige signaal te "temmen" via twee mechanismen: (1) een accumulatief voortgangsschattingmechanisme dat ruisige puntsschatingen afvlakt, en (2) een progressieve horizonuitbreidingsstrategie die geleidelijke policy-evolutie mogelijk maakt. EVOLVE-VLA behaalt aanzienlijke winsten: +8,6% op lange-termijntaken, +22,0% in 1-shot leren, en maakt cross-task generalisatie mogelijk – het behaalt 20,8% succes on onbekende taken zonder taakspecifieke demonstratietraining (versus 0% voor pure SFT). Kwalitatieve analyse onthult emergentie capaciteiten afwezig in demonstraties, inclusief foutherstel en nieuwe strategieën. Dit werk vertegenwoordigt een kritische stap richting VLA's die werkelijk leren en adaptteren, voorbij statische imitatie naar continue zelfverbetering.
English
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.