Liberando el Potencial de Razonamiento de los LLM Preentrenados mediante Ajuste Fino Basado en Críticas en un Solo Problema

Resumen

Hemos observado que modelos de lenguaje grandes (LLM) potentes como Qwen-Math, MiMo y Phi-4 poseen un inmenso potencial de razonamiento heredado de la etapa de preentrenamiento. Con el aprendizaje por refuerzo (RL), estos modelos pueden mejorar drásticamente en tareas de razonamiento. Estudios recientes han demostrado que incluso el RL aplicado a un solo problema puede liberar las capacidades de razonamiento de estos modelos. Sin embargo, el RL no solo es costoso, sino también inestable. Incluso el RL de un solo intento requiere cientos de horas de GPU. Esto plantea una pregunta crítica: ¿Existe una forma más eficiente de liberar el potencial de razonamiento de estos LLM base tan potentes? En este trabajo, demostramos que el Ajuste Fino con Críticas (CFT, por sus siglas en inglés) aplicado a un solo problema puede liberar efectivamente el potencial de razonamiento de los LLM. Nuestro método construye datos de crítica recopilando diversas soluciones generadas por el modelo para un único problema y utilizando LLM docentes para proporcionar críticas detalladas. Ajustamos finamente modelos de las familias Qwen y Llama, que van desde 1.5B hasta 14B parámetros, con los datos de CFT y observamos mejoras significativas en diversas tareas de razonamiento. Por ejemplo, con solo 5 horas de entrenamiento en GPU, Qwen-Math-7B-CFT muestra una mejora promedio del 15% en seis benchmarks de matemáticas y del 16% en tres benchmarks de razonamiento lógico. Estos resultados son comparables o incluso superan a los obtenidos con RL, utilizando 20 veces menos recursos computacionales. Los estudios de ablación revelan la robustez del CFT de un solo intento en diferentes problemas de prompt. Estos resultados destacan al CFT de un solo intento como un enfoque simple, general y eficiente en términos de computación para liberar las capacidades de razonamiento de los LLM modernos.

English

We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess immense reasoning potential inherited from the pre-training stage. With reinforcement learning (RL), these models can improve dramatically on reasoning tasks. Recent studies have shown that even RL on a single problem can unleash these models' reasoning capabilities. However, RL is not only expensive but also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a critical question: Is there a more efficient way to unleash the reasoning potential of these powerful base LLMs? In this work, we demonstrate that Critique Fine-Tuning (CFT) on only one problem can effectively unleash the reasoning potential of LLMs. Our method constructs critique data by collecting diverse model-generated solutions to a single problem and using teacher LLMs to provide detailed critiques. We fine-tune Qwen and Llama family models, ranging from 1.5B to 14B parameters, on the CFT data and observe significant performance gains across diverse reasoning tasks. For example, with just 5 GPU hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six math benchmarks and 16% on three logic reasoning benchmarks. These results are comparable to or even surpass the results from RL with 20x less compute. Ablation studies reveal the robustness of one-shot CFT across different prompt problems. These results highlight one-shot CFT as a simple, general, and compute-efficient approach to unleashing the reasoning capabilities of modern LLMs.

Liberando el Potencial de Razonamiento de los LLM Preentrenados mediante Ajuste Fino Basado en Críticas en un Solo Problema

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

Resumen

Support