ChatPaper.aiChatPaper

SRPO : Optimisation de Politique Auto-Référentielle pour les Modèles Vision-Langue-Action

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

November 19, 2025
papers.authors: Senyu Fei, Siyin Wang, Li Ji, Ao Li, Shiduo Zhang, Liming Liu, Jinlong Hou, Jingjing Gong, Xianzhong Zhao, Xipeng Qiu
cs.AI

papers.abstract

Les modèles Vision-Langage-Action (VLA) excellent dans la manipulation robotique, mais sont limités par leur forte dépendance aux démonstrations expertes, ce qui entraîne un biais de démonstration et restreint leurs performances. L'apprentissage par renforcement (RL) est une stratégie cruciale en post-formation pour surmonter ces limites, mais les méthodes VLA-RL actuelles, y compris les approches d'optimisation par groupe, sont handicapées par une sévère parcimonie des récompenses. S'appuyer sur des indicateurs de succès binaires gaspille les informations précieuses des trajectoires d'échec, conduisant à une faible efficacité d'entraînement. Pour résoudre ce problème, nous proposons l'Optimisation de Politique Auto-Référentielle (SRPO), un nouveau cadre VLA-RL. SRPO élimine le besoin de démonstrations externes ou d'ingénierie manuelle des récompenses en exploitant les propres trajectoires de succès du modèle, générées dans le lot d'entraînement courant, comme référence auto-référentielle. Cela nous permet d'attribuer une récompense progressive aux tentatives infructueuses. Une innovation centrale est l'utilisation de représentations latentes du monde pour mesurer robustement le progrès comportemental. Au lieu de s'appuyer sur des pixels bruts ou de nécessiter un ajustement fin spécifique au domaine, nous utilisons les encodages compressés et transférables de l'espace latent d'un modèle du monde. Ces représentations capturent naturellement les motifs de progrès à travers les environnements, permettant une comparaison précise et généralisée des trajectoires. Les évaluations empiriques sur le benchmark LIBERO démontrent l'efficacité de SRPO. Partant d'une baseline supervisée avec 48,9% de succès, SRPO atteint un nouveau state-of-the-art à 99,2% de taux de succès en seulement 200 pas de RL, représentant une amélioration relative de 103% sans aucune supervision supplémentaire. De plus, SRPO montre une robustesse substantielle, obtenant une amélioration de performance de 167% sur le benchmark LIBERO-Plus.
English
Vision-Language-Action (VLA) models excel in robotic manipulation but are constrained by their heavy reliance on expert demonstrations, leading to demonstration bias and limiting performance. Reinforcement learning (RL) is a vital post-training strategy to overcome these limits, yet current VLA-RL methods, including group-based optimization approaches, are crippled by severe reward sparsity. Relying on binary success indicators wastes valuable information in failed trajectories, resulting in low training efficiency. To solve this, we propose Self-Referential Policy Optimization (SRPO), a novel VLA-RL framework. SRPO eliminates the need for external demonstrations or manual reward engineering by leveraging the model's own successful trajectories, generated within the current training batch, as a self-reference. This allows us to assign a progress-wise reward to failed attempts. A core innovation is the use of latent world representations to measure behavioral progress robustly. Instead of relying on raw pixels or requiring domain-specific fine-tuning, we utilize the compressed, transferable encodings from a world model's latent space. These representations naturally capture progress patterns across environments, enabling accurate, generalized trajectory comparison. Empirical evaluations on the LIBERO benchmark demonstrate SRPO's efficiency and effectiveness. Starting from a supervised baseline with 48.9% success, SRPO achieves a new state-of-the-art success rate of 99.2% in just 200 RL steps, representing a 103% relative improvement without any extra supervision. Furthermore, SRPO shows substantial robustness, achieving a 167% performance improvement on the LIBERO-Plus benchmark.
PDF222December 1, 2025