Crítica del Ajuste Fino: Aprender a Criticar es más Efectivo que
Aprender a ImitarCritique Fine-Tuning: Learning to Critique is More Effective than
Learning to Imitate
El Ajuste Fino Supervisado (SFT, por sus siglas en inglés) se utiliza comúnmente para entrenar modelos de lenguaje a imitar respuestas anotadas para instrucciones dadas. En este documento, desafiamos este paradigma y proponemos el Ajuste Fino de Críticas (CFT, por sus siglas en inglés), una estrategia donde los modelos aprenden a criticar respuestas ruidosas en lugar de simplemente imitar las correctas. Inspirado en procesos de aprendizaje humanos que enfatizan el pensamiento crítico, CFT fomenta un análisis más profundo y una comprensión matizada, rasgos a menudo pasados por alto por el SFT estándar. Para validar la efectividad de CFT, construimos un conjunto de datos de 50K muestras de WebInstruct, utilizando GPT-4o como maestro para generar críticas en forma de (entrada=[consulta; respuesta ruidosa], salida=crítica). CFT en este conjunto de datos produce una mejora constante del 4-10% sobre SFT en seis pruebas de matemáticas con diferentes modelos base como Qwen2.5, Qwen2.5-Math y DeepSeek-Math. Ampliamos además a conjuntos de datos MetaMath y NuminaMath y observamos ganancias similares sobre SFT. Notablemente, nuestro modelo Qwen2.5-Math-CFT, entrenado con solo 50K muestras, coincide o supera a modelos competitivos como AceMath y Qwen2.5-Math-Instruct en la mayoría de las pruebas, ambos utilizando más de 2M muestras. Estudios de ablación muestran que CFT es robusto a la fuente de la respuesta ruidosa y al modelo de crítica del maestro. A través de estos hallazgos, argumentamos que el entrenamiento basado en críticas ofrece una alternativa más efectiva para avanzar en el razonamiento de los modelos de lenguaje.