Liberando o Potencial de Raciocínio de LLMs Pré-treinados por meio de Ajuste Fino Baseado em Crítica em um Único Problema
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem
June 3, 2025
Autores: Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
cs.AI
Resumo
Testemunhamos que modelos de linguagem robustos (LLMs) como Qwen-Math, MiMo e Phi-4 possuem um imenso potencial de raciocínio herdado da etapa de pré-treinamento. Com o aprendizado por reforço (RL), esses modelos podem melhorar drasticamente em tarefas de raciocínio. Estudos recentes mostraram que até mesmo o RL em um único problema pode liberar as capacidades de raciocínio desses modelos. No entanto, o RL não é apenas caro, mas também instável. Mesmo o RL de uma única execução requer centenas de horas de GPU. Isso levanta uma questão crítica: Existe uma maneira mais eficiente de liberar o potencial de raciocínio desses LLMs base poderosos? Neste trabalho, demonstramos que o Fine-Tuning com Crítica (CFT) em apenas um problema pode efetivamente liberar o potencial de raciocínio dos LLMs. Nosso método constrói dados de crítica coletando soluções diversas geradas por modelos para um único problema e usando LLMs professores para fornecer críticas detalhadas. Ajustamos finamente modelos das famílias Qwen e Llama, variando de 1,5B a 14B parâmetros, nos dados de CFT e observamos ganhos significativos de desempenho em diversas tarefas de raciocínio. Por exemplo, com apenas 5 horas de treinamento em GPU, o Qwen-Math-7B-CFT mostrou uma melhoria média de 15% em seis benchmarks de matemática e 16% em três benchmarks de raciocínio lógico. Esses resultados são comparáveis ou até superam os resultados do RL com 20 vezes menos computação. Estudos de ablação revelam a robustez do CFT de uma única execução em diferentes problemas de prompt. Esses resultados destacam o CFT de uma única execução como uma abordagem simples, geral e computacionalmente eficiente para liberar as capacidades de raciocínio dos LLMs modernos.
English
We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess
immense reasoning potential inherited from the pre-training stage. With
reinforcement learning (RL), these models can improve dramatically on reasoning
tasks. Recent studies have shown that even RL on a single problem can unleash
these models' reasoning capabilities. However, RL is not only expensive but
also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a
critical question: Is there a more efficient way to unleash the reasoning
potential of these powerful base LLMs? In this work, we demonstrate that
Critique Fine-Tuning (CFT) on only one problem can effectively unleash the
reasoning potential of LLMs. Our method constructs critique data by collecting
diverse model-generated solutions to a single problem and using teacher LLMs to
provide detailed critiques. We fine-tune Qwen and Llama family models, ranging
from 1.5B to 14B parameters, on the CFT data and observe significant
performance gains across diverse reasoning tasks. For example, with just 5 GPU
hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six
math benchmarks and 16% on three logic reasoning benchmarks. These results are
comparable to or even surpass the results from RL with 20x less compute.
Ablation studies reveal the robustness of one-shot CFT across different prompt
problems. These results highlight one-shot CFT as a simple, general, and
compute-efficient approach to unleashing the reasoning capabilities of modern
LLMs.