SwS : Synthèse de problèmes pilotée par la conscience des faiblesses dans l'apprentissage par renforcement pour le raisonnement des LLM

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est avéré efficace pour entraîner des modèles de langage de grande taille (LLMs) sur des tâches de raisonnement complexes, telles que la résolution de problèmes mathématiques. Une condition préalable à l'évolutivité du RLVR est un ensemble de problèmes de haute qualité avec des réponses précises et vérifiables. Cependant, la rareté des problèmes mathématiques soigneusement annotés par des humains et des réponses à vérification limitée dans les ensembles de données synthétiques orientés vers la distillation limite leur efficacité dans l'apprentissage par renforcement. De plus, la plupart des stratégies de synthèse de problèmes élargissent l'ensemble de problèmes de manière indiscriminée sans tenir compte des capacités du modèle, ce qui entraîne une faible efficacité dans la génération de questions utiles. Pour atténuer ce problème, nous introduisons un cadre de synthèse de problèmes axé sur la conscience de soi et les faiblesses (SwS) qui identifie systématiquement les lacunes du modèle et les exploite pour l'augmentation des problèmes. Plus précisément, nous définissons les faiblesses comme des questions que le modèle échoue systématiquement à apprendre à travers son échantillonnage itératif lors de l'entraînement par renforcement. Nous extrayons ensuite les concepts clés de ces cas d'échec et synthétisons de nouveaux problèmes pour renforcer les zones faibles du modèle lors des entraînements ultérieurs, lui permettant ainsi de se concentrer sur ses faiblesses et de les surmonter progressivement. Sans recourir à la distillation de connaissances externes, notre cadre permet une généralisation robuste en permettant au modèle d'identifier et de corriger ses propres faiblesses dans l'apprentissage par renforcement, entraînant des gains de performance moyens de 10,0 % et 7,7 % sur des modèles de 7B et 32B à travers huit benchmarks de raisonnement courants.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for training large language models (LLMs) on complex reasoning tasks, such as mathematical problem solving. A prerequisite for the scalability of RLVR is a high-quality problem set with precise and verifiable answers. However, the scarcity of well-crafted human-labeled math problems and limited-verification answers in existing distillation-oriented synthetic datasets limit their effectiveness in RL. Additionally, most problem synthesis strategies indiscriminately expand the problem set without considering the model's capabilities, leading to low efficiency in generating useful questions. To mitigate this issue, we introduce a Self-aware Weakness-driven problem Synthesis framework (SwS) that systematically identifies model deficiencies and leverages them for problem augmentation. Specifically, we define weaknesses as questions that the model consistently fails to learn through its iterative sampling during RL training. We then extract the core concepts from these failure cases and synthesize new problems to strengthen the model's weak areas in subsequent augmented training, enabling it to focus on and gradually overcome its weaknesses. Without relying on external knowledge distillation, our framework enables robust generalization byempowering the model to self-identify and address its weaknesses in RL, yielding average performance gains of 10.0% and 7.7% on 7B and 32B models across eight mainstream reasoning benchmarks.

SwS : Synthèse de problèmes pilotée par la conscience des faiblesses dans l'apprentissage par renforcement pour le raisonnement des LLM

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

papers.abstract

Support