ChatPaper.aiChatPaper

EvoVLA: Selbst-evolvierendes Vision-Language-Action-Modell

EvoVLA: Self-Evolving Vision-Language-Action Model

November 20, 2025
papers.authors: Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang
cs.AI

papers.abstract

Langfristige robotische Manipulation bleibt für Vision-Language-Action (VLA)-Modelle trotz jüngster Fortschritte bei Null-Shot-Generalisation und Simulation-zu-Realwelt-Transfer eine Herausforderung. Aktuelle VLA-Modelle leiden unter Stufenhalluzination, bei der Agenten grobe Evaluierungssignale ausnutzen, um mehrstufige Aufgaben zu umgehen, und hohe Fortschritte melden, ohne sie tatsächlich abzuschließen. Wir stellen EvoVLA vor, einen selbstüberwachten VLA-Rahmen, der dieses Problem durch drei komplementäre Komponenten adressiert: Stage-Aligned Reward (SAR), der triplettenbasiertes kontrastives Lernen mit hart-negativen Beispielen von Gemini nutzt, um visuelle Abkürzungen zu verhindern; Pose-Based Object Exploration (POE), die Neugier auf relativen Objekt-Greifer-Posen statt Rohpixeln gründet; und Langfristiges Gedächtnis, das selektive Kontextbewahrung und gated Fusion zur Stabilisierung intrinsischer Formung während langer Rollouts verwendet. Umfangreiche Auswertungen auf Discoverse-L, einem Benchmark für langfristige Manipulation mit drei mehrstufigen Aufgaben, zeigen, dass EvoVLA den durchschnittlichen Aufgaben-Erfolg um 10,2 Prozentpunkte gegenüber der stärksten Baseline (OpenVLA-OFT) auf 69,2 Prozent steigert. EvoVLA erreicht auch eine um das Eineinhalbfache bessere Stichprobeneffizienz und reduziert Stufenhalluzination von 38,5 Prozent auf 14,8 Prozent. Der Einsatz in der Realwelt auf physischen Robotern erreicht eine durchschnittliche Erfolgsrate von 54,6 Prozent über vier Manipulationsaufgaben, übertrifft OpenVLA-OFT um 11 Punkte und demonstriert effektiven Sim-to-Real-Transfer und starke Generalisation. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
English
Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
PDF62February 7, 2026