EvoVLA: Modelo Autoevolutivo de Visión, Lenguaje y Acción
EvoVLA: Self-Evolving Vision-Language-Action Model
November 20, 2025
Autores: Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang
cs.AI
Resumen
La manipulación robótica de horizonte largo sigue siendo un desafío para los modelos Visión-Lenguaje-Acción (VLA) a pesar de los recientes avances en generalización zero-shot y transferencia simulación-mundo real. Los modelos VLA actuales sufren de alucinación de etapas, donde los agentes explotan señales de evaluación gruesas para tomar atajos en tareas multi-etapa, reportando un alto progreso sin completarlas verdaderamente. Presentamos EvoVLA, un marco VLA auto-supervisado que aborda este problema mediante tres componentes complementarios: Recompensa Alineada por Etapas (SAR), que utiliza aprendizaje contrastivo con tripletas y ejemplos negativos difíciles generados por Gemini para prevenir atajos visuales; Exploración de Objetos Basada en Pose (POE), que fundamenta la curiosidad en la pose relativa objeto-pinza en lugar de píxeles en bruto; y Memoria de Horizonte Largo, que utiliza retención selectiva de contexto y fusión con compuerta para estabilizar el modelado intrínseco durante ejecuciones prolongadas. Evaluaciones exhaustivas en Discoverse-L, un benchmark de manipulación de horizonte largo con tres tareas multi-etapa, muestran que EvoVLA mejora el éxito promedio de las tareas en 10.2 puntos porcentuales sobre el baseline más fuerte (OpenVLA-OFT), alcanzando un 69.2 por ciento. EvoVLA también logra una eficiencia muestral una vez y media mejor y reduce la alucinación de etapas del 38.5 por ciento al 14.8 por ciento. El despliegue en el mundo real con robots físicos alcanza una tasa de éxito promedio del 54.6 por ciento en cuatro tareas de manipulación, superando a OpenVLA-OFT por 11 puntos, lo que demuestra una transferencia simulación-real efectiva y una fuerte generalización. Código: https://github.com/AIGeeksGroup/EvoVLA. Sitio web: https://aigeeksgroup.github.io/EvoVLA.
English
Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.