EvoVLA: Zelf-evoluerend visie-taal-actie-model
EvoVLA: Self-Evolving Vision-Language-Action Model
November 20, 2025
Auteurs: Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang
cs.AI
Samenvatting
Langetermijn-robotmanipulatie blijft een uitdaging voor Vision-Language-Action (VLA)-modellen, ondanks recente vooruitgang in zero-shot generalisatie en simulatie-naar-echte-wereld transfer. Huidige VLA-modellen lijden onder fase-hallucinatie, waarbij agents grove evaluatiesignalen misbruiken om meerstappentaken te verkorten, waarbij ze hoge voortgang rapporteren zonder deze daadwerkelijk te voltooien. Wij presenteren EvoVLA, een zelfgesuperviseerd VLA-raamwerk dat dit probleem aanpakt via drie complementaire componenten: Stage-Aligned Reward (SAR), dat triplet contrastief leren gebruikt met door Gemini gegenereerde hard negatives om visuele shortcuts te voorkomen; Pose-Based Object Exploration (POE), dat nieuwsgierigheid verankert in relatieve object-grijper poses in plaats van ruwe pixels; en Long-Horizon Memory, dat selectieve contextretentie en gegate fusie gebruikt om intrinsieke shaping te stabiliseren tijdens uitgebreide rollouts. Uitgebreide evaluaties op Discoverse-L, een langetermijn-manipulatiebenchmark met drie meerstappentaken, tonen aan dat EvoVLA de gemiddelde taaksucces verbetert met 10,2 procentpunt ten opzichte van de sterkste baseline (OpenVLA-OFT), tot 69,2 procent. EvoVLA bereikt ook een anderhalf keer betere sample-efficiëntie en reduceert fase-hallucinatie van 38,5 procent naar 14,8 procent. Implementatie in de echte wereld op fysieke robots bereikt een gemiddeld succespercentage van 54,6 procent over vier manipulatietaken, wat OpenVLA-OFT met 11 punten overtreft, wat effectieve sim-to-real transfer en sterke generalisatie aantoont. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
English
Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.