SRPO: 시각-언어-행동 모델을 위한 자기 참조 정책 최적화
SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
November 19, 2025
저자: Senyu Fei, Siyin Wang, Li Ji, Ao Li, Shiduo Zhang, Liming Liu, Jinlong Hou, Jingjing Gong, Xianzhong Zhao, Xipeng Qiu
cs.AI
초록
비전-언어-행동(VLA) 모델은 로봇 매니픽레이션 분야에서 뛰어난 성능을 보이지만, 전문가 시연 데이터에 대한 과도한 의존으로 인한 시연 편향(demonstration bias)과 성능 한계에 직면해 있습니다. 강화 학습(RL)은 이러한 한계를 극복하기 위한 중요한 후속 훈련 전략이지만, 현재의 VLA-RL 방법론(그룹 기반 최적화 접근법 포함)은 심각한 보상 희소성(reward sparsity) 문제로 인해 효율성이 낮습니다. 이진적인 성공 지표에 의존하는 방식은 실패한 궤적에 포함된 소중한 정보를 낭비하여 학습 효율을 저하시킵니다.
이를 해결하기 위해 우리는 새로운 VLA-RL 프레임워크인 자기 참조 정책 최적화(Self-Referential Policy Optimization, SRPO)를 제안합니다. SRPO는 외부 시연 데이터나 수동적인 보상 설계 없이, 현재 학습 배치 내에서 생성된 모델 자신의 성공적인 궤적을 자기 참조(self-reference)로 활용합니다. 이를 통해 실패한 시도에도 진행 상황에 따른 보상을 부여할 수 있습니다. 핵심 혁신은 잠재 세계 표현(latent world representations)을 사용하여 행동적 진행 상황(behavioral progress)을 강건하게 측정하는 것입니다. 원본 픽셀 데이터에 의존하거나 도메인 특화 파인튜닝을 요구하는 대신, 월드 모델(world model)의 잠재 공간(latent space)에서 추출된 압축적이고 전이 가능한 인코딩을 활용합니다. 이러한 표현은 다양한 환경에서의 진행 패턴을 자연스럽게 포착하여 정확하고 일반화된 궤적 비교를 가능하게 합니다.
LIBERO 벤치마크에 대한 실험적 평가를 통해 SRPO의 효율성과 효과성을 입증했습니다. 48.9% 성공률을 보인 지도 학습 기반 기준 모델에서 시작하여, SRPO는 단 200 RL 스텝 만에 99.2%라는 새로운 최첨단 성공률을 달성했으며, 이는 어떠한 추가적인 감독(supervision) 없이도 103%의 상대적 성능 향상을 의미합니다. 더 나아가, SRPO는 LIBERO-Plus 벤치마크에서 167%의 성능 향상을 보여주며 상당한 강건성(robustness)을 입증했습니다.
English
Vision-Language-Action (VLA) models excel in robotic manipulation but are constrained by their heavy reliance on expert demonstrations, leading to demonstration bias and limiting performance. Reinforcement learning (RL) is a vital post-training strategy to overcome these limits, yet current VLA-RL methods, including group-based optimization approaches, are crippled by severe reward sparsity. Relying on binary success indicators wastes valuable information in failed trajectories, resulting in low training efficiency. To solve this, we propose Self-Referential Policy Optimization (SRPO), a novel VLA-RL framework. SRPO eliminates the need for external demonstrations or manual reward engineering by leveraging the model's own successful trajectories, generated within the current training batch, as a self-reference. This allows us to assign a progress-wise reward to failed attempts. A core innovation is the use of latent world representations to measure behavioral progress robustly. Instead of relying on raw pixels or requiring domain-specific fine-tuning, we utilize the compressed, transferable encodings from a world model's latent space. These representations naturally capture progress patterns across environments, enabling accurate, generalized trajectory comparison. Empirical evaluations on the LIBERO benchmark demonstrate SRPO's efficiency and effectiveness. Starting from a supervised baseline with 48.9% success, SRPO achieves a new state-of-the-art success rate of 99.2% in just 200 RL steps, representing a 103% relative improvement without any extra supervision. Furthermore, SRPO shows substantial robustness, achieving a 167% performance improvement on the LIBERO-Plus benchmark.