SwS: Sintesi di Problemi Guidata dalla Consapevolezza delle Debolezze nell'Apprendimento per Rinforzo per il Ragionamento nei Modelli Linguistici di Grande Dimensione
SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning
June 10, 2025
Autori: Xiao Liang, Zhong-Zhi Li, Yeyun Gong, Yang Wang, Hengyuan Zhang, Yelong Shen, Ying Nian Wu, Weizhu Chen
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) si è dimostrato efficace per l'addestramento di grandi modelli linguistici (LLM) su compiti di ragionamento complesso, come la risoluzione di problemi matematici. Un prerequisito per la scalabilità dell'RLVR è un insieme di problemi di alta qualità con risposte precise e verificabili. Tuttavia, la scarsità di problemi matematici ben strutturati etichettati da esseri umani e le risposte con verifica limitata nei dataset sintetici orientati alla distillazione ne limitano l'efficacia nel RL. Inoltre, la maggior parte delle strategie di sintesi dei problemi espande indiscriminatamente l'insieme di problemi senza considerare le capacità del modello, portando a una bassa efficienza nella generazione di domande utili. Per mitigare questo problema, introduciamo un framework di Sintesi dei Problemi guidata dalla Consapevolezza delle Debolezze (SwS) che identifica sistematicamente le carenze del modello e le sfrutta per l'ampliamento dei problemi. Nello specifico, definiamo le debolezze come domande che il modello non riesce costantemente a imparare attraverso il suo campionamento iterativo durante l'addestramento RL. Successivamente, estraiamo i concetti chiave da questi casi di fallimento e sintetizziamo nuovi problemi per rafforzare le aree deboli del modello in un successivo addestramento ampliato, consentendogli di concentrarsi e superare gradualmente le sue debolezze. Senza fare affidamento sulla distillazione di conoscenze esterne, il nostro framework consente una generalizzazione robusta, permettendo al modello di auto-identificare e affrontare le sue debolezze nel RL, ottenendo miglioramenti medi delle prestazioni del 10,0% e del 7,7% rispettivamente su modelli da 7B e 32B in otto benchmark di ragionamento mainstream.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective
for training large language models (LLMs) on complex reasoning tasks, such as
mathematical problem solving. A prerequisite for the scalability of RLVR is a
high-quality problem set with precise and verifiable answers. However, the
scarcity of well-crafted human-labeled math problems and limited-verification
answers in existing distillation-oriented synthetic datasets limit their
effectiveness in RL. Additionally, most problem synthesis strategies
indiscriminately expand the problem set without considering the model's
capabilities, leading to low efficiency in generating useful questions. To
mitigate this issue, we introduce a Self-aware Weakness-driven problem
Synthesis framework (SwS) that systematically identifies model deficiencies and
leverages them for problem augmentation. Specifically, we define weaknesses as
questions that the model consistently fails to learn through its iterative
sampling during RL training. We then extract the core concepts from these
failure cases and synthesize new problems to strengthen the model's weak areas
in subsequent augmented training, enabling it to focus on and gradually
overcome its weaknesses. Without relying on external knowledge distillation,
our framework enables robust generalization byempowering the model to
self-identify and address its weaknesses in RL, yielding average performance
gains of 10.0% and 7.7% on 7B and 32B models across eight mainstream reasoning
benchmarks.