ChatPaper.aiChatPaper

S^2R: Insegnare ai Modelli Linguistici di Grande Dimensione a Auto-verificare e Auto-correggersi tramite Apprendimento per Rinforzo

S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

February 18, 2025
Autori: Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li
cs.AI

Abstract

Studi recenti hanno dimostrato l'efficacia del ridimensionamento al momento del test per i modelli linguistici di grandi dimensioni (LLM). Tuttavia, gli approcci esistenti per incentivare le capacità di pensiero profondo degli LLM richiedono generalmente dati su larga scala o sforzi di addestramento significativi. Nel frattempo, rimane poco chiaro come migliorare le capacità di pensiero dei modelli base meno potenti. In questo lavoro, introduciamo S^2R, un framework efficiente che migliora il ragionamento degli LLM insegnando ai modelli a auto-verificarsi e auto-correggersi durante l'inferenza. Nello specifico, inizializziamo prima gli LLM con comportamenti iterativi di auto-verifica e auto-correzione attraverso un fine-tuning supervisionato su dati accuratamente selezionati. Le capacità di auto-verifica e auto-correzione vengono poi ulteriormente rafforzate sia da un apprendimento per rinforzo a livello di risultato che a livello di processo, con requisiti di risorse minimizzati, consentendo al modello di affinare adattivamente il proprio processo di ragionamento durante l'inferenza. I nostri risultati dimostrano che, con solo 3.1k campioni di inizializzazione del comportamento di auto-verifica e auto-correzione, Qwen2.5-math-7B raggiunge un miglioramento dell'accuratezza dal 51.0\% all'81.6\%, superando i modelli addestrati su una quantità equivalente di dati distillati con long-CoT. Esperimenti estesi e analisi basati su tre modelli base attraverso benchmark sia in dominio che fuori dominio convalidano l'efficacia di S^2R. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/NineAbyss/S2R.
English
Recent studies have demonstrated the effectiveness of LLM test-time scaling. However, existing approaches to incentivize LLMs' deep thinking abilities generally require large-scale data or significant training efforts. Meanwhile, it remains unclear how to improve the thinking abilities of less powerful base models. In this work, we introduce S^2R, an efficient framework that enhances LLM reasoning by teaching models to self-verify and self-correct during inference. Specifically, we first initialize LLMs with iterative self-verification and self-correction behaviors through supervised fine-tuning on carefully curated data. The self-verification and self-correction skills are then further strengthened by both outcome-level and process-level reinforcement learning, with minimized resource requirements, enabling the model to adaptively refine its reasoning process during inference. Our results demonstrate that, with only 3.1k self-verifying and self-correcting behavior initialization samples, Qwen2.5-math-7B achieves an accuracy improvement from 51.0\% to 81.6\%, outperforming models trained on an equivalent amount of long-CoT distilled data. Extensive experiments and analysis based on three base models across both in-domain and out-of-domain benchmarks validate the effectiveness of S^2R. Our code and data are available at https://github.com/NineAbyss/S2R.

Summary

AI-Generated Summary

PDF292February 21, 2025