Libérer le potentiel de raisonnement des LLM pré-entraînés par un réglage fin basé sur la critique d'un seul problème
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem
June 3, 2025
Auteurs: Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
cs.AI
Résumé
Nous avons observé que des modèles de langage robustes tels que Qwen-Math, MiMo et Phi-4 possèdent un immense potentiel de raisonnement hérité de la phase de pré-entraînement. Grâce à l'apprentissage par renforcement (RL), ces modèles peuvent s'améliorer de manière significative sur des tâches de raisonnement. Des études récentes ont montré que même un apprentissage par renforcement sur un seul problème peut libérer les capacités de raisonnement de ces modèles. Cependant, l'apprentissage par renforcement est non seulement coûteux, mais aussi instable. Même un apprentissage par renforcement en une seule étape nécessite des centaines d'heures de GPU. Cela soulève une question cruciale : existe-t-il une manière plus efficace de libérer le potentiel de raisonnement de ces modèles de langage de base puissants ? Dans ce travail, nous démontrons que le réglage fin par critique (Critique Fine-Tuning, CFT) sur un seul problème peut efficacement libérer le potentiel de raisonnement des modèles de langage. Notre méthode construit des données de critique en collectant diverses solutions générées par le modèle pour un seul problème et en utilisant des modèles de langage enseignants pour fournir des critiques détaillées. Nous avons effectué un réglage fin des modèles de la famille Qwen et Llama, allant de 1,5 à 14 milliards de paramètres, sur les données de CFT et avons observé des gains de performance significatifs sur diverses tâches de raisonnement. Par exemple, avec seulement 5 heures de formation sur GPU, Qwen-Math-7B-CFT montre une amélioration moyenne de 15 % sur six benchmarks mathématiques et de 16 % sur trois benchmarks de raisonnement logique. Ces résultats sont comparables, voire supérieurs, à ceux obtenus par apprentissage par renforcement avec 20 fois moins de calcul. Des études d'ablation révèlent la robustesse du CFT en une seule étape sur différents problèmes d'invite. Ces résultats mettent en évidence le CFT en une seule étape comme une approche simple, générale et efficace en termes de calcul pour libérer les capacités de raisonnement des modèles de langage modernes.
English
We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess
immense reasoning potential inherited from the pre-training stage. With
reinforcement learning (RL), these models can improve dramatically on reasoning
tasks. Recent studies have shown that even RL on a single problem can unleash
these models' reasoning capabilities. However, RL is not only expensive but
also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a
critical question: Is there a more efficient way to unleash the reasoning
potential of these powerful base LLMs? In this work, we demonstrate that
Critique Fine-Tuning (CFT) on only one problem can effectively unleash the
reasoning potential of LLMs. Our method constructs critique data by collecting
diverse model-generated solutions to a single problem and using teacher LLMs to
provide detailed critiques. We fine-tune Qwen and Llama family models, ranging
from 1.5B to 14B parameters, on the CFT data and observe significant
performance gains across diverse reasoning tasks. For example, with just 5 GPU
hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six
math benchmarks and 16% on three logic reasoning benchmarks. These results are
comparable to or even surpass the results from RL with 20x less compute.
Ablation studies reveal the robustness of one-shot CFT across different prompt
problems. These results highlight one-shot CFT as a simple, general, and
compute-efficient approach to unleashing the reasoning capabilities of modern
LLMs.