SwS : Synthèse de problèmes pilotée par la conscience des faiblesses dans l'apprentissage par renforcement pour le raisonnement des LLM
SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning
June 10, 2025
Auteurs: Xiao Liang, Zhong-Zhi Li, Yeyun Gong, Yang Wang, Hengyuan Zhang, Yelong Shen, Ying Nian Wu, Weizhu Chen
cs.AI
Résumé
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est avéré efficace pour entraîner des modèles de langage de grande taille (LLMs) sur des tâches de raisonnement complexes, telles que la résolution de problèmes mathématiques. Une condition préalable à l'évolutivité du RLVR est un ensemble de problèmes de haute qualité avec des réponses précises et vérifiables. Cependant, la rareté des problèmes mathématiques soigneusement annotés par des humains et des réponses à vérification limitée dans les ensembles de données synthétiques orientés vers la distillation limite leur efficacité dans l'apprentissage par renforcement. De plus, la plupart des stratégies de synthèse de problèmes élargissent l'ensemble de problèmes de manière indiscriminée sans tenir compte des capacités du modèle, ce qui entraîne une faible efficacité dans la génération de questions utiles. Pour atténuer ce problème, nous introduisons un cadre de synthèse de problèmes axé sur la conscience de soi et les faiblesses (SwS) qui identifie systématiquement les lacunes du modèle et les exploite pour l'augmentation des problèmes. Plus précisément, nous définissons les faiblesses comme des questions que le modèle échoue systématiquement à apprendre à travers son échantillonnage itératif lors de l'entraînement par renforcement. Nous extrayons ensuite les concepts clés de ces cas d'échec et synthétisons de nouveaux problèmes pour renforcer les zones faibles du modèle lors des entraînements ultérieurs, lui permettant ainsi de se concentrer sur ses faiblesses et de les surmonter progressivement. Sans recourir à la distillation de connaissances externes, notre cadre permet une généralisation robuste en permettant au modèle d'identifier et de corriger ses propres faiblesses dans l'apprentissage par renforcement, entraînant des gains de performance moyens de 10,0 % et 7,7 % sur des modèles de 7B et 32B à travers huit benchmarks de raisonnement courants.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective
for training large language models (LLMs) on complex reasoning tasks, such as
mathematical problem solving. A prerequisite for the scalability of RLVR is a
high-quality problem set with precise and verifiable answers. However, the
scarcity of well-crafted human-labeled math problems and limited-verification
answers in existing distillation-oriented synthetic datasets limit their
effectiveness in RL. Additionally, most problem synthesis strategies
indiscriminately expand the problem set without considering the model's
capabilities, leading to low efficiency in generating useful questions. To
mitigate this issue, we introduce a Self-aware Weakness-driven problem
Synthesis framework (SwS) that systematically identifies model deficiencies and
leverages them for problem augmentation. Specifically, we define weaknesses as
questions that the model consistently fails to learn through its iterative
sampling during RL training. We then extract the core concepts from these
failure cases and synthesize new problems to strengthen the model's weak areas
in subsequent augmented training, enabling it to focus on and gradually
overcome its weaknesses. Without relying on external knowledge distillation,
our framework enables robust generalization byempowering the model to
self-identify and address its weaknesses in RL, yielding average performance
gains of 10.0% and 7.7% on 7B and 32B models across eight mainstream reasoning
benchmarks.