ChatPaper.aiChatPaper

Freisetzung des Schlussfolgerungspotenzials vortrainierter LLMs durch Kritik-basiertes Feinabstimmen an einem Problem

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

June 3, 2025
papers.authors: Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
cs.AI

papers.abstract

Wir haben beobachtet, dass leistungsstarke LLMs wie Qwen-Math, MiMo und Phi-4 ein immenses Reasoning-Potenzial besitzen, das aus der Pre-Training-Phase stammt. Durch Reinforcement Learning (RL) können diese Modelle ihre Fähigkeiten bei Reasoning-Aufgaben erheblich verbessern. Aktuelle Studien haben gezeigt, dass sogar RL anhand eines einzigen Problems das Reasoning-Potenzial dieser Modelle freisetzen kann. Allerdings ist RL nicht nur kostspielig, sondern auch instabil. Selbst One-Shot-RL erfordert Hunderte von GPU-Stunden. Dies wirft eine entscheidende Frage auf: Gibt es eine effizientere Methode, um das Reasoning-Potenzial dieser leistungsfähigen Basis-LLMs freizusetzen? In dieser Arbeit zeigen wir, dass Critique Fine-Tuning (CFT) anhand nur eines Problems das Reasoning-Potenzial von LLMs effektiv freisetzen kann. Unsere Methode konstruiert Kritikdaten, indem vielfältige, modellgenerierte Lösungen für ein einzelnes Problem gesammelt und von leistungsstarken Lehrer-LLMs detaillierte Kritiken bereitgestellt werden. Wir fine-tunen Modelle der Qwen- und Llama-Familie mit Parametergrößen von 1,5B bis 14B anhand der CFT-Daten und beobachten signifikante Leistungssteigerungen bei verschiedenen Reasoning-Aufgaben. Beispielsweise zeigt Qwen-Math-7B-CFT nach nur 5 GPU-Stunden Training eine durchschnittliche Verbesserung von 15 % bei sechs mathematischen Benchmarks und 16 % bei drei logischen Reasoning-Benchmarks. Diese Ergebnisse sind vergleichbar mit oder übertreffen sogar die Ergebnisse von RL bei 20-fach geringerem Rechenaufwand. Ablationsstudien belegen die Robustheit von One-Shot-CFT über verschiedene Prompt-Probleme hinweg. Diese Ergebnisse unterstreichen One-Shot-CFT als eine einfache, allgemeine und recheneffiziente Methode, um die Reasoning-Fähigkeiten moderner LLMs freizusetzen.
English
We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess immense reasoning potential inherited from the pre-training stage. With reinforcement learning (RL), these models can improve dramatically on reasoning tasks. Recent studies have shown that even RL on a single problem can unleash these models' reasoning capabilities. However, RL is not only expensive but also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a critical question: Is there a more efficient way to unleash the reasoning potential of these powerful base LLMs? In this work, we demonstrate that Critique Fine-Tuning (CFT) on only one problem can effectively unleash the reasoning potential of LLMs. Our method constructs critique data by collecting diverse model-generated solutions to a single problem and using teacher LLMs to provide detailed critiques. We fine-tune Qwen and Llama family models, ranging from 1.5B to 14B parameters, on the CFT data and observe significant performance gains across diverse reasoning tasks. For example, with just 5 GPU hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six math benchmarks and 16% on three logic reasoning benchmarks. These results are comparable to or even surpass the results from RL with 20x less compute. Ablation studies reveal the robustness of one-shot CFT across different prompt problems. These results highlight one-shot CFT as a simple, general, and compute-efficient approach to unleashing the reasoning capabilities of modern LLMs.
PDF172June 5, 2025