EVOLVE-VLA:視覚言語行動モデルにおける環境フィードバックに基づくテスト時訓練
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
December 16, 2025
著者: Zechen Bai, Chen Gao, Mike Zheng Shou
cs.AI
要旨
真に適応的な身体性知能を達成するには、エージェントが静的な模倣だけでなく、人間が練習を通じて技能を習得する方法と同様に、環境との相互作用を通じて継続的に改善することを学ぶ必要がある。Vision-Language-Action (VLA) モデルは大規模言語モデルを活用することでロボットマニピュレーションを進展させてきたが、教師ありファインチューニング (SFT) に根本的に制限されている。つまり、タスク毎に数百の実演データを必要とし、軌道を固定的に記憶し、展開条件が訓練時から乖離した場合に適応できない。本研究では、VLAが最小限またはゼロのタスク特化実演で環境相互作用を通じて継続的に適応することを可能にするテスト時訓練フレームワーク、EVOLVE-VLAを提案する。主要な技術的課題は、テスト時には利用不可能な正解報酬信号を自律的フィードバックで置き換えることである。我々はこれを、密なフィードバックを提供する学習済み進度推定器によって解決し、決定的に、二つのメカニズムを通じてこの本質的にノイズの多い信号を「飼いならす」フレームワークを設計する:(1) ノイズの多い点推定値を平滑化する累積的進度推定メカニズム、(2) 段階的な方策進化を可能にする漸進的ホライズン拡張戦略である。EVOLVE-VLAは顕著な改善を達成した:長期タスクで+8.6%、ワンショット学習で+22.0%、さらに、タスク横断的な一般化能力を発揮し、タスク特化実演なしで未見タスクにおいて20.8%の成功率を達成した(純粋なSFTの0%に対して)。定性的分析は、実演には存在しない誤り回復や新規戦略といった創発的能力を明らかにする。本研究成果は、静的な模倣を超え、継続的な自己改善に向かう、真に学習し適応するVLAへの重要な一歩を表す。
English
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.