EvoVLA : Modèle auto-évolutif vision-langage-action
EvoVLA: Self-Evolving Vision-Language-Action Model
November 20, 2025
papers.authors: Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang
cs.AI
papers.abstract
La manipulation robotique à long terme demeure un défi pour les modèles Vision-Langage-Action (VLA), malgré les progrès récents en matière de généralisation zero-shot et de transfert simulation-monde réel. Les modèles VLA actuels souffrent d'hallucination d'étapes, où les agents exploitent des signaux d'évaluation grossiers pour court-circuiter les tâches multi-étapes, rapportant des progrès élevés sans les accomplir véritablement. Nous présentons EvoVLA, un cadre VLA auto-supervisé qui résout ce problème via trois composantes complémentaires : la Récompense Alignée sur les Étapes (SAR), qui utilise l'apprentissage par contraste triplet avec des négatifs difficiles générés par Gemini pour empêcher les raccourcis visuels ; l'Exploration d'Objets par Pose (POE), qui ancre la curiosité dans la pose relative objet-pince plutôt que dans les pixels bruts ; et la Mémoire à Long Terme, qui utilise une rétention contextuelle sélective et une fusion à seuil pour stabiliser le façonnage intrinsèque lors des déploiements prolongés. Des évaluations poussées sur Discoverse-L, un benchmark de manipulation à long terme avec trois tâches multi-étapes, montrent qu'EvoVLA améliore le taux de réussite moyen des tâches de 10,2 points de pourcentage par rapport au meilleur modèle de référence (OpenVLA-OFT), atteignant 69,2 %. EvoVLA atteint également une efficacité d'échantillonnage une fois et demie supérieure et réduit l'hallucination d'étapes de 38,5 % à 14,8 %. Le déploiement en conditions réelles sur des robots physiques atteint un taux de réussite moyen de 54,6 % sur quatre tâches de manipulation, surpassant OpenVLA-OFT de 11 points, démontrant un transfert simulation-réel efficace et une forte généralisation. Code : https://github.com/AIGeeksGroup/EvoVLA. Site web : https://aigeeksgroup.github.io/EvoVLA.
English
Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.