Crítica de Ajuste Fino: Aprender a Criticar é Mais Eficaz do que
Aprender a ImitarCritique Fine-Tuning: Learning to Critique is More Effective than
Learning to Imitate
O Ajuste Fino Supervisionado (AFS) é comumente utilizado para treinar modelos de linguagem a imitar respostas anotadas para instruções fornecidas. Neste artigo, desafiamos esse paradigma e propomos o Ajuste Fino de Crítica (AFC), uma estratégia na qual os modelos aprendem a criticar respostas ruidosas em vez de simplesmente imitar as corretas. Inspirado nos processos de aprendizagem humanos que enfatizam o pensamento crítico, o AFC incentiva uma análise mais profunda e uma compreensão mais refinada - características frequentemente negligenciadas pelo AFS padrão. Para validar a eficácia do AFC, construímos um conjunto de dados de 50 mil amostras do WebInstruct, utilizando o GPT-4o como professor para gerar críticas na forma de (entrada=[consulta; resposta ruidosa], saída=crítica). O AFC neste conjunto de dados resulta em uma melhoria consistente de 4 a 10% sobre o AFS em seis benchmarks de matemática com diferentes modelos base como Qwen2.5, Qwen2.5-Math e DeepSeek-Math. Expandimos ainda para conjuntos de dados MetaMath e NuminaMath e observamos ganhos semelhantes sobre o AFS. Notavelmente, nosso modelo Qwen2.5-Math-AFC, treinado com apenas 50 mil amostras, iguala ou supera modelos competitivos como AceMath e Qwen2.5-Math-Instruct na maioria dos benchmarks, ambos utilizando mais de 2 milhões de amostras. Estudos de ablação mostram que o AFC é robusto à origem da resposta ruidosa e ao modelo de crítica do professor. Por meio dessas descobertas, argumentamos que o treinamento baseado em críticas oferece uma alternativa mais eficaz para avançar o raciocínio dos modelos de linguagem.