EVOLVE-VLA: Test-Time Training durch Umweltfeedback für Vision-Language-Action-Modelle
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
December 16, 2025
papers.authors: Zechen Bai, Chen Gao, Mike Zheng Shou
cs.AI
papers.abstract
Die Verwirklichung wahrhaft adaptiver verkörperter Intelligenz erfordert Agenten, die nicht nur durch das Nachahmen statischer Demonstrationen lernen, sondern sich durch kontinuierliche Verbesserung mittels Interaktion mit der Umwelt weiterentwickeln – ähnlich wie Menschen Fähigkeiten durch Übung meistern. Vision-Language-Action (VLA)-Modelle haben die robotische Manipulation durch die Nutzung großer Sprachmodelle vorangetrieben, sind jedoch grundsätzlich durch Supervised Finetuning (SFT) limitiert: Sie benötigen Hunderte von Demonstrationen pro Aufgabe, speichern Trajektorien starr ab und versagen bei der Anpassung, wenn die Einsatzbedingungen vom Training abweichen. Wir stellen EVOLVE-VLA vor, ein Test-Time-Training-Framework, das VLAs ermöglicht, sich kontinuierlich durch Umgebungsinteraktion mit minimalen oder null aufgabenspezifischen Demonstrationen anzupassen. Die zentrale technische Herausforderung besteht darin, Oracle-Belohnungssignale (die zur Testzeit nicht verfügbar sind) durch autonomes Feedback zu ersetzen. Wir lösen dies durch einen gelernten Fortschritts-Schätzer, der dichtes Feedback liefert, und entscheidend ist, dass wir unser Framework so gestalten, dass es dieses inhärent verrauschte Signal durch zwei Mechanismen „bändigt“: (1) einen akkumulativen Fortschrittsschätzmechanismus, der verrauschte punktuelle Schätzungen glättet, und (2) eine progressive Horizont-Erweiterungsstrategie, die eine schrittweise Politikentwicklung ermöglicht. EVOLVE-VLA erzielt substantielle Gewinne: +8,6 % bei langfristigen Aufgaben, +22,0 % im 1-Shot-Lernen und ermöglicht aufgabenübergreifende Generalisierung – es erreicht 20,8 % Erfolg bei ungesehenen Aufgaben ohne aufgabenspezifisches Demonstrationstraining (gegenüber 0 % für reines SFT). Qualitative Analysen zeigen neu entstehende Fähigkeiten, die in Demonstrationen nicht vorhanden sind, einschließlich Fehlerbehebung und neuartiger Strategien. Diese Arbeit stellt einen kritischen Schritt hin zu VLAs dar, die wahrhaft lernen und sich anpassen, und bewegt sich damit über statische Nachahmung hinaus hin zu kontinuierlicher Selbstverbesserung.
English
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.