SwS: Sintesi di Problemi Guidata dalla Consapevolezza delle Debolezze nell'Apprendimento per Rinforzo per il Ragionamento nei Modelli Linguistici di Grande Dimensione

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) si è dimostrato efficace per l'addestramento di grandi modelli linguistici (LLM) su compiti di ragionamento complesso, come la risoluzione di problemi matematici. Un prerequisito per la scalabilità dell'RLVR è un insieme di problemi di alta qualità con risposte precise e verificabili. Tuttavia, la scarsità di problemi matematici ben strutturati etichettati da esseri umani e le risposte con verifica limitata nei dataset sintetici orientati alla distillazione ne limitano l'efficacia nel RL. Inoltre, la maggior parte delle strategie di sintesi dei problemi espande indiscriminatamente l'insieme di problemi senza considerare le capacità del modello, portando a una bassa efficienza nella generazione di domande utili. Per mitigare questo problema, introduciamo un framework di Sintesi dei Problemi guidata dalla Consapevolezza delle Debolezze (SwS) che identifica sistematicamente le carenze del modello e le sfrutta per l'ampliamento dei problemi. Nello specifico, definiamo le debolezze come domande che il modello non riesce costantemente a imparare attraverso il suo campionamento iterativo durante l'addestramento RL. Successivamente, estraiamo i concetti chiave da questi casi di fallimento e sintetizziamo nuovi problemi per rafforzare le aree deboli del modello in un successivo addestramento ampliato, consentendogli di concentrarsi e superare gradualmente le sue debolezze. Senza fare affidamento sulla distillazione di conoscenze esterne, il nostro framework consente una generalizzazione robusta, permettendo al modello di auto-identificare e affrontare le sue debolezze nel RL, ottenendo miglioramenti medi delle prestazioni del 10,0% e del 7,7% rispettivamente su modelli da 7B e 32B in otto benchmark di ragionamento mainstream.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for training large language models (LLMs) on complex reasoning tasks, such as mathematical problem solving. A prerequisite for the scalability of RLVR is a high-quality problem set with precise and verifiable answers. However, the scarcity of well-crafted human-labeled math problems and limited-verification answers in existing distillation-oriented synthetic datasets limit their effectiveness in RL. Additionally, most problem synthesis strategies indiscriminately expand the problem set without considering the model's capabilities, leading to low efficiency in generating useful questions. To mitigate this issue, we introduce a Self-aware Weakness-driven problem Synthesis framework (SwS) that systematically identifies model deficiencies and leverages them for problem augmentation. Specifically, we define weaknesses as questions that the model consistently fails to learn through its iterative sampling during RL training. We then extract the core concepts from these failure cases and synthesize new problems to strengthen the model's weak areas in subsequent augmented training, enabling it to focus on and gradually overcome its weaknesses. Without relying on external knowledge distillation, our framework enables robust generalization byempowering the model to self-identify and address its weaknesses in RL, yielding average performance gains of 10.0% and 7.7% on 7B and 32B models across eight mainstream reasoning benchmarks.

SwS: Sintesi di Problemi Guidata dalla Consapevolezza delle Debolezze nell'Apprendimento per Rinforzo per il Ragionamento nei Modelli Linguistici di Grande Dimensione

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

Abstract

Support