EVOLVE-VLA: 비전-언어-행동 모델을 위한 환경 피드백 기반 테스트 타임 트레이닝
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
December 16, 2025
저자: Zechen Bai, Chen Gao, Mike Zheng Shou
cs.AI
초록
진정으로 적응형 구현 지능을 달성하기 위해서는 에이전트가 단순히 정적인 데모를 모방하는 것을 넘어 환경과의 상호작용을 통해 지속적으로 개선하는 방식을 학습해야 하며, 이는 인간이 연습을 통해 기술을 숙달하는 방식과 유사합니다. Vision-Language-Action (VLA) 모델은 대규모 언어 모델을 활용하여 로봇 매니퓰레이션 분야를 발전시켰으나, 근본적으로 지도 미세 조정(SFT)의 한계에 직면해 있습니다: 작업당 수백 개의 데모가 필요하고, 궤적을 경직되게 암기하며, 실제 배포 조건이 훈련 시와 달라질 경우 적응에 실패합니다. 본 연구에서는 VLA 모델이 최소한의 작업별 데모 또는 심지어 제로샷으로 환경 상호작용을 통해 지속적으로 적응할 수 있는 테스트 타임 훈련 프레임워크인 EVOLVE-VLA를 소개합니다. 핵심 기술적 과제는 테스트 시점에 이용 불가능한 오라클 보상 신호를 자율적인 피드백으로 대체하는 것입니다. 우리는 조밀한 피드백을 제공하는 학습된 진행도 추정기를 통해 이 문제를 해결하며, 특히 두 가지 메커니즘을 통해 본질적으로 잡음이 많은 이 신호를 "제어"하도록 프레임워크를 설계했습니다: (1) 잡음이 있는 점별 추정치를 평활화하는 누적 진행도 추정 메커니즘, (2) 점진적인 정책 진화를 가능하게 하는 점진적 계획 확장 전략. EVOLVE-VLA는 상당한 성능 향상을 달성했습니다: 장기계 작업에서 +8.6%, 1샷 학습에서 +22.0%의 성능 향상을 보였으며, 작업 간 일반화 능력을 발휘하여 작업별 데모 훈련 없이도 보지 않은 작업에서 20.8%의 성공률을 달성했습니다(순수 SFT 대비 0%). 정성적 분석은 데모에는 없던 오류 복구 및 새로운 전략을 포함한 창발적 능력을 보여줍니다. 이 작업은 정적인 모방을 넘어 지속적인 자기 개선을 향해 나아가는, 진정으로 학습하고 적응하는 VLA로 가는 중요한 단계를 나타냅니다.
English
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.