ChatPaper.aiChatPaper

SRPO: Zelfreferentieel Beleidsoptimalisatie voor Visie-Taal-Actie-Modellen

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

November 19, 2025
Auteurs: Senyu Fei, Siyin Wang, Li Ji, Ao Li, Shiduo Zhang, Liming Liu, Jinlong Hou, Jingjing Gong, Xianzhong Zhao, Xipeng Qiu
cs.AI

Samenvatting

Vision-Language-Action (VLA)-modellen blinken uit in robotmanipulatie, maar worden beperkt door hun sterke afhankelijkheid van expertdemonstraties, wat leidt tot demonstratiebias en de prestaties beperkt. Reinforcement learning (RL) is een cruciale post-trainingstrategie om deze beperkingen te overwinnen, maar huidige VLA-RL-methoden, inclusief groepgebaseerde optimalisatiebenaderingen, worden belemmerd door ernstige beloningsschaarste. Het vertrouwen op binaire succesindicatoren verspilt waardevolle informatie in mislukte trajecten, wat resulteert in lage trainings efficiëntie. Om dit op te lossen, stellen we Self-Referential Policy Optimization (SRPO) voor, een nieuw VLA-RL-raamwerk. SRPO elimineert de noodzaak van externe demonstraties of handmatige beloningsengineering door de eigen succesvolle trajecten van het model, gegenereerd binnen de huidige trainingsbatch, als zelfreferentie te benutten. Hierdoor kunnen we een progressiegewijze beloning toekennen aan mislukte pogingen. Een kerninnovatie is het gebruik van latente wereldrepresentaties om gedragsprogressie robuust te meten. In plaats van te vertrouwen op ruwe pixels of domeinspecifieke fine-tuning te vereisen, gebruiken we de gecomprimeerde, overdraagbare coderingen uit de latente ruimte van een wereldmodel. Deze representaties vangen natuurlijk progressiepatronen over omgevingen heen, waardoor nauwkeurige, gegeneraliseerde trajectvergelijking mogelijk wordt. Empirische evaluaties op de LIBERO-benchmark tonen de efficiëntie en effectiviteit van SRPO aan. Beginnend vanaf een supervised baseline met 48,9% succes, bereikt SRPO een nieuwe state-of-the-art-succesratio van 99,2% in slechts 200 RL-stappen, wat een relatieve verbetering van 103% vertegenwoordigt zonder extra supervisie. Bovendien toont SRPO aanzienlijke robuustheid, met een prestatieverbetering van 167% op de LIBERO-Plus-benchmark.
English
Vision-Language-Action (VLA) models excel in robotic manipulation but are constrained by their heavy reliance on expert demonstrations, leading to demonstration bias and limiting performance. Reinforcement learning (RL) is a vital post-training strategy to overcome these limits, yet current VLA-RL methods, including group-based optimization approaches, are crippled by severe reward sparsity. Relying on binary success indicators wastes valuable information in failed trajectories, resulting in low training efficiency. To solve this, we propose Self-Referential Policy Optimization (SRPO), a novel VLA-RL framework. SRPO eliminates the need for external demonstrations or manual reward engineering by leveraging the model's own successful trajectories, generated within the current training batch, as a self-reference. This allows us to assign a progress-wise reward to failed attempts. A core innovation is the use of latent world representations to measure behavioral progress robustly. Instead of relying on raw pixels or requiring domain-specific fine-tuning, we utilize the compressed, transferable encodings from a world model's latent space. These representations naturally capture progress patterns across environments, enabling accurate, generalized trajectory comparison. Empirical evaluations on the LIBERO benchmark demonstrate SRPO's efficiency and effectiveness. Starting from a supervised baseline with 48.9% success, SRPO achieves a new state-of-the-art success rate of 99.2% in just 200 RL steps, representing a 103% relative improvement without any extra supervision. Furthermore, SRPO shows substantial robustness, achieving a 167% performance improvement on the LIBERO-Plus benchmark.
PDF222December 1, 2025