ChatPaper.aiChatPaper

EvoVLA: 자기 진화 비전-언어-행동 모델

EvoVLA: Self-Evolving Vision-Language-Action Model

November 20, 2025
저자: Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang
cs.AI

초록

장기 과업 로봇 매니퓰레이션은 최근 제로샷 일반화 및 시뮬레이션-현실 세계 전이 분야에서의 진전에도 불구하고 Vision-Language-Action(VLA) 모델에게 여전히 어려운 과제로 남아 있습니다. 기존 VLA 모델은 단계 환각(stage hallucination) 문제를 겪는데, 이는 에이전트가 다단계 작업을 속임수로 우회하기 위해 coarse한 평가 신호를 활용하여 작업을 실제로 완수하지 않고도 높은 진행률을 보고하는 현상입니다. 본 논문에서는 이 문제를 해결하기 위한 자가 지도 VLA 프레임워크인 EvoVLA를 제안합니다. EvoVLA는 상호 보완적인 세 가지 구성 요소로 구성됩니다: 1) Gemini로 생성된 hard negative를 활용한 triplet 대조 학습을 통해 시각적 단축 경로를 방지하는 Stage-Aligned Reward(SAR), 2) 원시 픽셀 대신 객체-그리퍼 상대 포즈에 호기심을 근거하는 Pose-Based Object Exploration(POE), 3) 확장된 롤아웃 동안 내재적 형성(intrinsic shaping)을 안정화하기 위한 선택적 맥락 유지와 게이트 융합을 사용하는 Long-Horizon Memory입니다. 3가지 다단계 작업으로 구성된 장기 과업 매니퓰레이션 벤치마크인 Discoverse-L에서의 광범위한 평가 결과, EvoVLA는 가장 강력한 베이스라인(OpenVLA-OFT) 대비 평균 작업 성공률을 10.2%p 향상시켜 69.2%에 도달함을 보여줍니다. 또한 EvoVLA는 1.5배 더 나은 샘플 효율성을 달성하고 단계 환각 비율을 38.5%에서 14.8%로 줄였습니다. 물리적 로봇에 대한 실제 현장 적용에서 EvoVLA는 4가지 매니퓰레이션 작업에서 평균 54.6%의 성공률을 기록하여 OpenVLA-OFT를 11%p 앞섰으며, 효과적인 sim-to-real 전이와 강력한 일반화 성능을 입증했습니다. 코드: https://github.com/AIGeeksGroup/EvoVLA. 웹사이트: https://aigeeksgroup.github.io/EvoVLA.
English
Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
PDF42December 3, 2025