ChatPaper.aiChatPaper

Sfruttare il Potenziale di Ragionamento dei Modelli Linguistici Pre-addestrati attraverso l'Affinamento Critico su un Singolo Problema

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

June 3, 2025
Autori: Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
cs.AI

Abstract

Abbiamo osservato che potenti modelli linguistici (LLM) come Qwen-Math, MiMo e Phi-4 possiedono un immenso potenziale di ragionamento ereditato dalla fase di pre-addestramento. Con l'apprendimento per rinforzo (RL), questi modelli possono migliorare drasticamente nelle attività di ragionamento. Studi recenti hanno dimostrato che anche l'RL su un singolo problema può liberare le capacità di ragionamento di questi modelli. Tuttavia, l'RL non è solo costoso ma anche instabile. Anche l'RL one-shot richiede centinaia di ore di GPU. Ciò solleva una domanda cruciale: esiste un modo più efficiente per liberare il potenziale di ragionamento di questi potenti LLM di base? In questo lavoro, dimostriamo che il Fine-Tuning con Critica (CFT) su un solo problema può liberare efficacemente il potenziale di ragionamento degli LLM. Il nostro metodo costruisce dati di critica raccogliendo soluzioni generate dal modello per un singolo problema e utilizzando LLM insegnanti per fornire critiche dettagliate. Abbiamo eseguito il fine-tuning dei modelli delle famiglie Qwen e Llama, con parametri che vanno da 1,5B a 14B, sui dati CFT e abbiamo osservato miglioramenti significativi in diverse attività di ragionamento. Ad esempio, con solo 5 ore di addestramento su GPU, Qwen-Math-7B-CFT mostra un miglioramento medio del 15% su sei benchmark matematici e del 16% su tre benchmark di ragionamento logico. Questi risultati sono comparabili o addirittura superiori a quelli ottenuti con l'RL, utilizzando 20 volte meno risorse computazionali. Studi di ablazione rivelano la robustezza del CFT one-shot su diversi problemi di prompt. Questi risultati evidenziano il CFT one-shot come un approccio semplice, generale e computazionalmente efficiente per liberare le capacità di ragionamento dei moderni LLM.
English
We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess immense reasoning potential inherited from the pre-training stage. With reinforcement learning (RL), these models can improve dramatically on reasoning tasks. Recent studies have shown that even RL on a single problem can unleash these models' reasoning capabilities. However, RL is not only expensive but also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a critical question: Is there a more efficient way to unleash the reasoning potential of these powerful base LLMs? In this work, we demonstrate that Critique Fine-Tuning (CFT) on only one problem can effectively unleash the reasoning potential of LLMs. Our method constructs critique data by collecting diverse model-generated solutions to a single problem and using teacher LLMs to provide detailed critiques. We fine-tune Qwen and Llama family models, ranging from 1.5B to 14B parameters, on the CFT data and observe significant performance gains across diverse reasoning tasks. For example, with just 5 GPU hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six math benchmarks and 16% on three logic reasoning benchmarks. These results are comparable to or even surpass the results from RL with 20x less compute. Ablation studies reveal the robustness of one-shot CFT across different prompt problems. These results highlight one-shot CFT as a simple, general, and compute-efficient approach to unleashing the reasoning capabilities of modern LLMs.
PDF172June 5, 2025