Liberando o Potencial de Raciocínio de LLMs Pré-treinados por meio de Ajuste Fino Baseado em Crítica em um Único Problema

Resumo

Testemunhamos que modelos de linguagem robustos (LLMs) como Qwen-Math, MiMo e Phi-4 possuem um imenso potencial de raciocínio herdado da etapa de pré-treinamento. Com o aprendizado por reforço (RL), esses modelos podem melhorar drasticamente em tarefas de raciocínio. Estudos recentes mostraram que até mesmo o RL em um único problema pode liberar as capacidades de raciocínio desses modelos. No entanto, o RL não é apenas caro, mas também instável. Mesmo o RL de uma única execução requer centenas de horas de GPU. Isso levanta uma questão crítica: Existe uma maneira mais eficiente de liberar o potencial de raciocínio desses LLMs base poderosos? Neste trabalho, demonstramos que o Fine-Tuning com Crítica (CFT) em apenas um problema pode efetivamente liberar o potencial de raciocínio dos LLMs. Nosso método constrói dados de crítica coletando soluções diversas geradas por modelos para um único problema e usando LLMs professores para fornecer críticas detalhadas. Ajustamos finamente modelos das famílias Qwen e Llama, variando de 1,5B a 14B parâmetros, nos dados de CFT e observamos ganhos significativos de desempenho em diversas tarefas de raciocínio. Por exemplo, com apenas 5 horas de treinamento em GPU, o Qwen-Math-7B-CFT mostrou uma melhoria média de 15% em seis benchmarks de matemática e 16% em três benchmarks de raciocínio lógico. Esses resultados são comparáveis ou até superam os resultados do RL com 20 vezes menos computação. Estudos de ablação revelam a robustez do CFT de uma única execução em diferentes problemas de prompt. Esses resultados destacam o CFT de uma única execução como uma abordagem simples, geral e computacionalmente eficiente para liberar as capacidades de raciocínio dos LLMs modernos.

English

We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess immense reasoning potential inherited from the pre-training stage. With reinforcement learning (RL), these models can improve dramatically on reasoning tasks. Recent studies have shown that even RL on a single problem can unleash these models' reasoning capabilities. However, RL is not only expensive but also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a critical question: Is there a more efficient way to unleash the reasoning potential of these powerful base LLMs? In this work, we demonstrate that Critique Fine-Tuning (CFT) on only one problem can effectively unleash the reasoning potential of LLMs. Our method constructs critique data by collecting diverse model-generated solutions to a single problem and using teacher LLMs to provide detailed critiques. We fine-tune Qwen and Llama family models, ranging from 1.5B to 14B parameters, on the CFT data and observe significant performance gains across diverse reasoning tasks. For example, with just 5 GPU hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six math benchmarks and 16% on three logic reasoning benchmarks. These results are comparable to or even surpass the results from RL with 20x less compute. Ablation studies reveal the robustness of one-shot CFT across different prompt problems. These results highlight one-shot CFT as a simple, general, and compute-efficient approach to unleashing the reasoning capabilities of modern LLMs.

Liberando o Potencial de Raciocínio de LLMs Pré-treinados por meio de Ajuste Fino Baseado em Crítica em um Único Problema

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

Resumo

Support