SRPO: 視覚・言語・行動モデルのための自己参照型ポリシー最適化
SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
November 19, 2025
著者: Senyu Fei, Siyin Wang, Li Ji, Ao Li, Shiduo Zhang, Liming Liu, Jinlong Hou, Jingjing Gong, Xianzhong Zhao, Xipeng Qiu
cs.AI
要旨
Vision-Language-Action(VLA)モデルはロボットマニピュレーションにおいて優れた性能を発揮するが、専門家による実証データへの過度な依存という制約があり、これが実証バイアスを生み出し性能向上を妨げている。強化学習(RL)はこうした限界を克服する重要なポストトレーニング手法であるものの、既存のVLA-RL手法(グループベース最適化アプローチを含む)は深刻な報酬スパース性に悩まされている。二値的な成功指標への依存は、失敗軌道に含まれる貴重な情報を無駄にしてしまい、学習効率の低下を招く。この問題を解決するため、我々は新規VLA-RLフレームワークである自己参照型方策最適化(SRPO)を提案する。SRPOは、現在の訓練バッチ内で生成されたモデル自身の成功軌道を自己参照として利用することで、外部実証データや手動報酬設計を不要とする。これにより、失敗試行に対しても進捗度に応じた報酬を付与できる。中核となる革新は、ロバストな行動進捗測定のための潜在世界表現の利用である。生の画素データに依存したり、ドメイン固有のファインチューニングを必要としたりする代わりに、世界モデルの潜在空間から得られる圧縮された転移可能な符号化を利用する。これらの表現は環境横断的な進捗パターンを自然に捉え、正確で一般化された軌道比較を可能にする。LIBEROベンチマークによる実証評価では、SRPOの効率性と有効性が示された。48.9%の成功率を持つ教師ありベースラインから開始したSRPOは、わずか200RLステップで99.2%という新たな最高成功率を達成し、追加の教師信号なしに103%の相対改善を実現した。さらにSRPOは高い頑健性を示し、LIBERO-Plusベンチマークでは167%の性能向上を達成した。
English
Vision-Language-Action (VLA) models excel in robotic manipulation but are constrained by their heavy reliance on expert demonstrations, leading to demonstration bias and limiting performance. Reinforcement learning (RL) is a vital post-training strategy to overcome these limits, yet current VLA-RL methods, including group-based optimization approaches, are crippled by severe reward sparsity. Relying on binary success indicators wastes valuable information in failed trajectories, resulting in low training efficiency. To solve this, we propose Self-Referential Policy Optimization (SRPO), a novel VLA-RL framework. SRPO eliminates the need for external demonstrations or manual reward engineering by leveraging the model's own successful trajectories, generated within the current training batch, as a self-reference. This allows us to assign a progress-wise reward to failed attempts. A core innovation is the use of latent world representations to measure behavioral progress robustly. Instead of relying on raw pixels or requiring domain-specific fine-tuning, we utilize the compressed, transferable encodings from a world model's latent space. These representations naturally capture progress patterns across environments, enabling accurate, generalized trajectory comparison. Empirical evaluations on the LIBERO benchmark demonstrate SRPO's efficiency and effectiveness. Starting from a supervised baseline with 48.9% success, SRPO achieves a new state-of-the-art success rate of 99.2% in just 200 RL steps, representing a 103% relative improvement without any extra supervision. Furthermore, SRPO shows substantial robustness, achieving a 167% performance improvement on the LIBERO-Plus benchmark.