EvoVLA: Саморазвивающаяся модель «зрение-язык-действие»
EvoVLA: Self-Evolving Vision-Language-Action Model
November 20, 2025
Авторы: Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang
cs.AI
Аннотация
Долгосрочное роботизированное манипулирование остается сложной задачей для моделей Vision-Language-Action (VLA), несмотря на недавний прогресс в области нулевого обобщения и переноса из симуляции в реальный мир. Современные модели VLA страдают от стадийных галлюцинаций, когда агенты используют грубые оценочные сигналы для обхода многошаговых задач, сообщая о высоком прогрессе, не выполняя их по-настоящему. Мы представляем EvoVLA, самообучаемую VLA-структуру, которая решает эту проблему с помощью трех взаимодополняющих компонентов: Stage-Aligned Reward (SAR), использующую триплетное контрастное обучение с жесткими негативными примерами, сгенерированными Gemini, для предотвращения визуальных сокращений; Pose-Based Object Exploration (POE), которая основывает любопытство на относительной позе объект-захват вместо сырых пикселей; и Long-Horizon Memory, которая использует избирательное сохранение контекста и управляемое слияние для стабилизации внутреннего формирования в ходе продолжительных прогонов. Обширные оценки на Discoverse-L, бенчмарке долгосрочного манипулирования с тремя многостадийными задачами, показывают, что EvoVLA улучшает средний успех задач на 10.2 процентных пункта по сравнению с сильнейшим базовым методом (OpenVLA-OFT), достигая 69.2 процента. EvoVLA также демонстрирует в полтора раза лучшую эффективность использования образцов и сокращает стадийные галлюцинации с 38.5 процента до 14.8 процента. Развертывание в реальном мире на физических роботах достигает среднего уровня успеха в 54.6 процента по четырем задачам манипулирования, превосходя OpenVLA-OFT на 11 пунктов, что демонстрирует эффективный перенос из симуляции в реальность и сильное обобщение. Код: https://github.com/AIGeeksGroup/EvoVLA. Сайт: https://aigeeksgroup.github.io/EvoVLA.
English
Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.