ChatPaper.aiChatPaper

EVOLVE-VLA: Entrenamiento en Tiempo de Prueba a partir de Retroalimentación del Entorno para Modelos de Visión-Lenguaje-Acción

EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

December 16, 2025
Autores: Zechen Bai, Chen Gao, Mike Zheng Shou
cs.AI

Resumen

Lograr una inteligencia encarnada verdaderamente adaptativa requiere agentes que aprendan no solo imitando demostraciones estáticas, sino mejorando continuamente mediante la interacción con el entorno, de manera análoga a cómo los humanos dominan habilidades mediante la práctica. Los modelos Visión-Lenguaje-Acción (VLA) han avanzado la manipulación robótica al aprovechar los grandes modelos de lenguaje, pero siguen estando fundamentalmente limitados por el Ajuste Supervisado (SFT): requieren cientos de demostraciones por tarea, memorizan trayectorias de forma rígida y fallan al adaptarse cuando las condiciones de despliegue se desvían del entrenamiento. Presentamos EVOLVE-VLA, un marco de entrenamiento en tiempo de prueba que permite a los VLA adaptarse continuamente mediante la interacción con el entorno, con demostraciones específicas de la tarea mínimas o nulas. El principal desafío técnico es reemplazar las señales de recompensa oráculo (no disponibles en tiempo de prueba) con retroalimentación autónoma. Abordamos esto mediante un estimador de progreso aprendido que proporciona retroalimentación densa y, de manera crucial, diseñamos nuestro marco para "domar" esta señal inherentemente ruidosa mediante dos mecanismos: (1) un mecanismo de estimación de progreso acumulativo que suaviza las estimaciones puntuales ruidosas, y (2) una estrategia de extensión progresiva del horizonte que permite una evolución gradual de la política. EVOLVE-VLA logra mejoras sustanciales: +8.6% en tareas de horizonte largo, +22.0% en aprendizaje con un solo ejemplo, y permite la generalización cruzada de tareas, logrando un 20.8% de éxito en tareas no vistas sin entrenamiento con demostraciones específicas (frente al 0% del SFT puro). El análisis cualitativo revela capacidades emergentes ausentes en las demostraciones, incluida la recuperación de errores y estrategias novedosas. Este trabajo representa un paso crítico hacia VLA que realmente aprenden y se adaptan, alejándose de la imitación estática hacia la automejora continua.
English
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.
PDF61December 18, 2025