ChatPaper.aiChatPaper

Het Benutten van het Redeneervermogen van Vooraf Getrainde LLM's door Kritische Fine-Tuning op Eén Probleem

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

June 3, 2025
Auteurs: Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
cs.AI

Samenvatting

We hebben gezien dat sterke LLM's zoals Qwen-Math, MiMo en Phi-4 een enorm redeneervermogen bezitten dat is overgeërfd uit de pre-trainingsfase. Met reinforcement learning (RL) kunnen deze modellen aanzienlijk verbeteren op redeneertaken. Recente studies hebben aangetoond dat zelfs RL op één enkel probleem het redeneervermogen van deze modellen kan ontketenen. RL is echter niet alleen kostbaar, maar ook instabiel. Zelfs one-shot RL vereist honderden GPU-uren. Dit roept een kritische vraag op: Is er een efficiëntere manier om het redeneervermogen van deze krachtige basis-LLM's te ontketenen? In dit werk tonen we aan dat Critique Fine-Tuning (CFT) op slechts één probleem effectief het redeneervermogen van LLM's kan ontketenen. Onze methode construeert kritiekdata door diverse modelgegenereerde oplossingen voor één probleem te verzamelen en gebruik te maken van leraar-LLM's om gedetailleerde kritiek te geven. We fine-tunen Qwen- en Llama-familie modellen, variërend van 1,5B tot 14B parameters, op de CFT-data en observeren aanzienlijke prestatieverbeteringen op diverse redeneertaken. Zo toont Qwen-Math-7B-CFT met slechts 5 GPU-uren training een gemiddelde verbetering van 15% op zes wiskundige benchmarks en 16% op drie logische redeneerbenchmarks. Deze resultaten zijn vergelijkbaar met of overtreffen zelfs de resultaten van RL met 20x minder rekenkracht. Ablatiestudies onthullen de robuustheid van one-shot CFT over verschillende promptproblemen. Deze resultaten benadrukken one-shot CFT als een eenvoudige, algemene en rekenkundig efficiënte aanpak om het redeneervermogen van moderne LLM's te ontketenen.
English
We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess immense reasoning potential inherited from the pre-training stage. With reinforcement learning (RL), these models can improve dramatically on reasoning tasks. Recent studies have shown that even RL on a single problem can unleash these models' reasoning capabilities. However, RL is not only expensive but also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a critical question: Is there a more efficient way to unleash the reasoning potential of these powerful base LLMs? In this work, we demonstrate that Critique Fine-Tuning (CFT) on only one problem can effectively unleash the reasoning potential of LLMs. Our method constructs critique data by collecting diverse model-generated solutions to a single problem and using teacher LLMs to provide detailed critiques. We fine-tune Qwen and Llama family models, ranging from 1.5B to 14B parameters, on the CFT data and observe significant performance gains across diverse reasoning tasks. For example, with just 5 GPU hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six math benchmarks and 16% on three logic reasoning benchmarks. These results are comparable to or even surpass the results from RL with 20x less compute. Ablation studies reveal the robustness of one-shot CFT across different prompt problems. These results highlight one-shot CFT as a simple, general, and compute-efficient approach to unleashing the reasoning capabilities of modern LLMs.
PDF172June 5, 2025