EVOLVE-VLA : Entraînement au moment du test à partir des retours d'environnement pour les modèles vision-langage-action
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
December 16, 2025
papers.authors: Zechen Bai, Chen Gao, Mike Zheng Shou
cs.AI
papers.abstract
Atteindre une intelligence incarnée véritablement adaptative nécessite des agents qui apprennent non seulement en imitant des démonstrations statiques, mais en s'améliorant continuellement par l'interaction environnementale, ce qui est analogue à la manière dont les humains maîtrisent les compétences par la pratique. Les modèles Vision-Langage-Action (VLA) ont fait progresser la manipulation robotique en exploitant les grands modèles de langage, mais restent fondamentalement limités par le Fine-Tuning Supervisé (SFT) : ils nécessitent des centaines de démonstrations par tâche, mémorisent rigidement les trajectoires et échouent à s'adapter lorsque les conditions de déploiement s'écartent de l'entraînement. Nous présentons EVOLVE-VLA, un cadre d'entraînement au moment du test permettant aux VLA de s'adapter continuellement par interaction avec l'environnement avec un nombre minimal, voire nul, de démonstrations spécifiques à la tâche. Le principal défi technique consiste à remplacer les signaux de récompense oracle (indisponibles au moment du test) par un retour d'information autonome. Nous résolvons ce problème grâce à un estimateur de progrès apprenant fournissant un retour dense et, point crucial, nous concevons notre cadre pour « dompter » ce signal intrinsèquement bruité via deux mécanismes : (1) un mécanisme d'estimation de progrès accumulé lissant les estimations ponctuelles bruitées, et (2) une stratégie d'extension progressive de l'horizon permettant une évolution graduelle de la politique. EVOLVE-VLA obtient des gains substantiels : +8,6 % sur les tâches à long horizon, +22,0 % en apprentissage en one-shot, et permet une généralisation inter-tâches – atteignant 20,8 % de succès sur des tâches non vues sans entraînement sur des démonstrations spécifiques (contre 0 % pour le SFT pur). Une analyse qualitative révèle des capacités émergentes absentes des démonstrations, incluant la récupération d'erreurs et des stratégies novatrices. Ce travail représente une étape cruciale vers des VLA qui apprennent et s'adaptent véritablement, dépassant l'imitation statique pour tendre vers des améliorations continues autonomes.
English
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.