ChatPaper.aiChatPaper

EvoVLA: 自己進化型視覚言語行動モデル

EvoVLA: Self-Evolving Vision-Language-Action Model

November 20, 2025
著者: Zeting Liu, Zida Yang, Zeyu Zhang, Hao Tang
cs.AI

要旨

長期的なロボットマニピュレーションは、ゼロショット汎化やシミュレーションから実世界への転移における近年の進歩にもかかわらず、Vision-Language-Action(VLA)モデルにとって依然として課題である。現在のVLAモデルは、エージェントが粗い評価信号を悪用して多段階タスクを短絡させ、実際に完了させずに高い進捗を報告する「ステージ幻覚」に悩まされている。本論文では、この問題を解決する自己教師ありVLAフレームワークであるEvoVLAを提案する。EvoVLAは、以下の3つの相補的コンポーネントから構成される。(1) Geminiによって生成されたハードネガティブを用いたトリプレットコントラスティブ学習により視覚的短絡を防ぐStage-Aligned Reward (SAR)、(2) 生の画素ではなく相対的なオブジェクト-グリッパ姿勢に好奇心を基盤づけるPose-Based Object Exploration (POE)、(3) 選択的文脈保持とゲート融合を用いて長期的ロールアウト中の内発的シェイピングを安定化するLong-Horizon Memoryである。3つの多段階タスクからなる長期的マニピュレーションベンチマークDiscoverse-Lでの大規模な評価により、EvoVLAが最強のベースライン(OpenVLA-OFT)を10.2ポイント上回る69.2%の平均タスク成功率を達成することが示された。EvoVLAはまた、1.5倍のサンプル効率向上を実現し、ステージ幻覚を38.5%から14.8%に低減した。実ロボットを用いた実世界での検証では、4つのマニピュレーションタスクで平均成功率54.6%を達成し、OpenVLA-OFTを11ポイント上回り、効果的なSim-to-Real転移と強力な汎化性能を実証した。コード: https://github.com/AIGeeksGroup/EvoVLA. ウェブサイト: https://aigeeksgroup.github.io/EvoVLA.
English
Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
PDF42December 3, 2025