ChatPaper.aiChatPaper

EVOLVE-VLA: Обучение во время тестирования на основе обратной связи от среды для моделей "зрение-язык-действие"

EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

December 16, 2025
Авторы: Zechen Bai, Chen Gao, Mike Zheng Shou
cs.AI

Аннотация

Достижение по-настоящему адаптивного воплощенного интеллекта требует создания агентов, которые обучаются не только путем подражания статичным демонстрациям, но и за счет непрерывного совершенствования в процессе взаимодействия со средой, что аналогично тому, как люди осваивают навыки на практике. Модели «Vision-Language-Action» (VLA) совершили прорыв в роботизированном манипулировании, используя большие языковые модели, однако они фундаментально ограничены обучением с учителем (SFT): требуются сотни демонстраций для каждой задачи, происходит жесткое запоминание траекторий, и модель не способна адаптироваться, когда условия эксплуатации отклоняются от учебных. Мы представляем EVOLVE-VLA — фреймворк обучения в процессе тестирования, который позволяет моделям VLA непрерывно адаптироваться через взаимодействие со средой при минимальном или нулевом количестве специфичных для задачи демонстраций. Ключевая техническая проблема заключается в замене эталонных сигналов вознаграждения (недоступных во время тестирования) на автономную обратную связь. Мы решаем эту проблему с помощью обученного оценщика прогресса, обеспечивающего плотную обратную связь, и, что критически важно, проектируем наш фреймворк так, чтобы «обуздать» этот по своей природе зашумленный сигнал с помощью двух механизмов: (1) механизма кумулятивной оценки прогресса, сглаживающего точечные зашумленные оценки, и (2) стратегии прогрессивного расширения горизонта, позволяющей постепенную эволюцию политики. EVOLVE-VLA демонстрирует существенный прирост: +8,6% в задачах с длинным горизонтом, +22,0% при обучении с одного примера и обеспечивает кросс-задачное обобщение — достигая 20,8% успеха на незнакомых задачах без обучения на специфичных для них демонстрациях (против 0% для чистого SFT). Качественный анализ выявляет emergent-способности, отсутствующие в демонстрациях, включая восстановление после ошибок и новые стратегии. Данная работа представляет собой важный шаг к созданию моделей VLA, которые действительно обучаются и адаптируются, выходя за рамки статичного подражания к непрерывному самоусовершенствованию.
English
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.
PDF61December 18, 2025