Liberando el Potencial de Razonamiento de los LLM Preentrenados mediante Ajuste Fino Basado en Críticas en un Solo Problema
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem
June 3, 2025
Autores: Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
cs.AI
Resumen
Hemos observado que modelos de lenguaje grandes (LLM) potentes como Qwen-Math, MiMo y Phi-4 poseen un inmenso potencial de razonamiento heredado de la etapa de preentrenamiento. Con el aprendizaje por refuerzo (RL), estos modelos pueden mejorar drásticamente en tareas de razonamiento. Estudios recientes han demostrado que incluso el RL aplicado a un solo problema puede liberar las capacidades de razonamiento de estos modelos. Sin embargo, el RL no solo es costoso, sino también inestable. Incluso el RL de un solo intento requiere cientos de horas de GPU. Esto plantea una pregunta crítica: ¿Existe una forma más eficiente de liberar el potencial de razonamiento de estos LLM base tan potentes? En este trabajo, demostramos que el Ajuste Fino con Críticas (CFT, por sus siglas en inglés) aplicado a un solo problema puede liberar efectivamente el potencial de razonamiento de los LLM. Nuestro método construye datos de crítica recopilando diversas soluciones generadas por el modelo para un único problema y utilizando LLM docentes para proporcionar críticas detalladas. Ajustamos finamente modelos de las familias Qwen y Llama, que van desde 1.5B hasta 14B parámetros, con los datos de CFT y observamos mejoras significativas en diversas tareas de razonamiento. Por ejemplo, con solo 5 horas de entrenamiento en GPU, Qwen-Math-7B-CFT muestra una mejora promedio del 15% en seis benchmarks de matemáticas y del 16% en tres benchmarks de razonamiento lógico. Estos resultados son comparables o incluso superan a los obtenidos con RL, utilizando 20 veces menos recursos computacionales. Los estudios de ablación revelan la robustez del CFT de un solo intento en diferentes problemas de prompt. Estos resultados destacan al CFT de un solo intento como un enfoque simple, general y eficiente en términos de computación para liberar las capacidades de razonamiento de los LLM modernos.
English
We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess
immense reasoning potential inherited from the pre-training stage. With
reinforcement learning (RL), these models can improve dramatically on reasoning
tasks. Recent studies have shown that even RL on a single problem can unleash
these models' reasoning capabilities. However, RL is not only expensive but
also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a
critical question: Is there a more efficient way to unleash the reasoning
potential of these powerful base LLMs? In this work, we demonstrate that
Critique Fine-Tuning (CFT) on only one problem can effectively unleash the
reasoning potential of LLMs. Our method constructs critique data by collecting
diverse model-generated solutions to a single problem and using teacher LLMs to
provide detailed critiques. We fine-tune Qwen and Llama family models, ranging
from 1.5B to 14B parameters, on the CFT data and observe significant
performance gains across diverse reasoning tasks. For example, with just 5 GPU
hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six
math benchmarks and 16% on three logic reasoning benchmarks. These results are
comparable to or even surpass the results from RL with 20x less compute.
Ablation studies reveal the robustness of one-shot CFT across different prompt
problems. These results highlight one-shot CFT as a simple, general, and
compute-efficient approach to unleashing the reasoning capabilities of modern
LLMs.