ChatPaper.aiChatPaper

EvoVLA: Modello Visione-Linguaggio-Azione ad Auto-Evoluzione

EvoVLA: Self-Evolving Vision-Language-Action Model

November 20, 2025
Autori: Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang
cs.AI

Abstract

La manipolazione robotica a lungo orizzonte rimane una sfida per i modelli Vision-Language-Action (VLA) nonostante i recenti progressi nella generalizzazione zero-shot e nel transfer da simulazione a mondo reale. Gli attuali modelli VLA soffrono di allucinazione di stadio, in cui gli agenti sfruttano segnali di valutazione approssimativi per trovare scorciatoie nei compiti multi-step, riportando un alto progresso senza completarli realmente. Presentiamo EvoVLA, un framework VLA auto-supervisionato che affronta questo problema attraverso tre componenti complementari: Ricompensa Allineata per Stadio (SAR), che utilizza l'apprendimento contrastivo a triplette con negativi difficili generati da Gemini per prevenire scorciatoie visive; Esplorazione di Oggetti Basata su Posa (POE), che ancorala curiosità alla posa relativa oggetto-pinza invece che ai pixel grezzi; e Memoria a Lungo Orizzonte, che utilizza una ritenzione selettiva del contesto e una fusione controllata per stabilizzare lo shaping intrinseco durante rollout estesi. Valutazioni estensive su Discoverse-L, un benchmark di manipolazione a lungo orizzonte con tre compiti multi-stadio, mostrano che EvoVLA migliora il successo medio del compito di 10.2 punti percentuali rispetto al baseline più forte (OpenVLA-OFT), raggiungendo il 69.2 percento. EvoVLA raggiunge anche un'efficienza campionaria una volta e mezzo superiore e riduce l'allucinazione di stadio dal 38.5 percento al 14.8 percento. Il deployment nel mondo reale su robot fisici raggiunge un tasso di successo medio del 54.6 percento su quattro compiti di manipolazione, superando OpenVLA-OFT di 11 punti, dimostrando un efficace transfer sim-to-real e una forte generalizzazione. Codice: https://github.com/AIGeeksGroup/EvoVLA. Sito web: https://aigeeksgroup.github.io/EvoVLA.
English
Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
PDF42December 3, 2025