S^2R: Insegnare ai Modelli Linguistici di Grande Dimensione a Auto-verificare e Auto-correggersi tramite Apprendimento per Rinforzo

Abstract

Studi recenti hanno dimostrato l'efficacia del ridimensionamento al momento del test per i modelli linguistici di grandi dimensioni (LLM). Tuttavia, gli approcci esistenti per incentivare le capacità di pensiero profondo degli LLM richiedono generalmente dati su larga scala o sforzi di addestramento significativi. Nel frattempo, rimane poco chiaro come migliorare le capacità di pensiero dei modelli base meno potenti. In questo lavoro, introduciamo S^2R, un framework efficiente che migliora il ragionamento degli LLM insegnando ai modelli a auto-verificarsi e auto-correggersi durante l'inferenza. Nello specifico, inizializziamo prima gli LLM con comportamenti iterativi di auto-verifica e auto-correzione attraverso un fine-tuning supervisionato su dati accuratamente selezionati. Le capacità di auto-verifica e auto-correzione vengono poi ulteriormente rafforzate sia da un apprendimento per rinforzo a livello di risultato che a livello di processo, con requisiti di risorse minimizzati, consentendo al modello di affinare adattivamente il proprio processo di ragionamento durante l'inferenza. I nostri risultati dimostrano che, con solo 3.1k campioni di inizializzazione del comportamento di auto-verifica e auto-correzione, Qwen2.5-math-7B raggiunge un miglioramento dell'accuratezza dal 51.0\% all'81.6\%, superando i modelli addestrati su una quantità equivalente di dati distillati con long-CoT. Esperimenti estesi e analisi basati su tre modelli base attraverso benchmark sia in dominio che fuori dominio convalidano l'efficacia di S^2R. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/NineAbyss/S2R.

English

Recent studies have demonstrated the effectiveness of LLM test-time scaling. However, existing approaches to incentivize LLMs' deep thinking abilities generally require large-scale data or significant training efforts. Meanwhile, it remains unclear how to improve the thinking abilities of less powerful base models. In this work, we introduce S^2R, an efficient framework that enhances LLM reasoning by teaching models to self-verify and self-correct during inference. Specifically, we first initialize LLMs with iterative self-verification and self-correction behaviors through supervised fine-tuning on carefully curated data. The self-verification and self-correction skills are then further strengthened by both outcome-level and process-level reinforcement learning, with minimized resource requirements, enabling the model to adaptively refine its reasoning process during inference. Our results demonstrate that, with only 3.1k self-verifying and self-correcting behavior initialization samples, Qwen2.5-math-7B achieves an accuracy improvement from 51.0\% to 81.6\%, outperforming models trained on an equivalent amount of long-CoT distilled data. Extensive experiments and analysis based on three base models across both in-domain and out-of-domain benchmarks validate the effectiveness of S^2R. Our code and data are available at https://github.com/NineAbyss/S2R.

S^2R: Insegnare ai Modelli Linguistici di Grande Dimensione a Auto-verificare e Auto-correggersi tramite Apprendimento per Rinforzo

S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

Abstract

Support