Au-delà de Pass@1 : L'auto-joueur avec synthèse variationnelle de problèmes soutient RLVR
Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR
August 19, 2025
papers.authors: Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment émergé comme un paradigme clé pour l'entraînement post-formation des modèles de langage de grande taille (LLMs), en particulier pour les tâches de raisonnement complexe. Cependant, il a été démontré que l'entraînement RLVR standard améliore la performance Pass@1 au détriment de l'entropie de la politique, conduisant à une réduction de la diversité de génération et limitant la performance Pass@k, qui représente généralement la limite supérieure de la capacité de raisonnement des LLMs. Dans cet article, nous analysons systématiquement la diversité de génération de la politique du point de vue des problèmes d'entraînement et constatons que l'augmentation et la mise à jour des problèmes d'entraînement aident à atténuer l'effondrement de l'entropie pendant l'entraînement. Sur la base de ces observations, nous proposons une stratégie d'auto-jeu en ligne avec synthèse variationnelle de problèmes (SvS) pour l'entraînement RLVR, qui utilise les solutions correctes de la politique pour synthétiser des problèmes variationnels tout en garantissant que leurs réponses de référence restent identiques aux originaux. Cette stratégie d'auto-amélioration maintient efficacement l'entropie de la politique pendant l'entraînement et améliore considérablement Pass@k par rapport au RLVR standard, soutenant des améliorations prolongées et obtenant des gains absolus de 18,3 % et 22,8 % dans la performance Pass@32 sur les benchmarks de niveau compétition AIME24 et AIME25. Les expériences sur 12 benchmarks de raisonnement couvrant des tailles de modèles variant de 3B à 32B démontrent de manière cohérente la généralisabilité et la robustesse de SvS.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as
a key paradigm for post-training Large Language Models (LLMs), particularly for
complex reasoning tasks. However, vanilla RLVR training has been shown to
improve Pass@1 performance at the expense of policy entropy, leading to reduced
generation diversity and limiting the Pass@k performance, which typically
represents the upper bound of LLM reasoning capability. In this paper, we
systematically analyze the policy's generation diversity from the perspective
of training problems and find that augmenting and updating training problems
helps mitigate entropy collapse during training. Based on these observations,
we propose an online Self-play with Variational problem Synthesis (SvS)
strategy for RLVR training, which uses the policy's correct solutions to
synthesize variational problems while ensuring their reference answers remain
identical to the originals. This self-improving strategy effectively maintains
policy entropy during training and substantially improves Pass@k compared with
standard RLVR, sustaining prolonged improvements and achieving absolute gains
of 18.3% and 22.8% in Pass@32 performance on the competition-level AIME24 and
AIME25 benchmarks. Experiments on 12 reasoning benchmarks across varying model
sizes from 3B to 32B consistently demonstrate the generalizability and
robustness of SvS.