Critica del Fine-Tuning: Imparare a Criticare è Più Efficace che
Imparare ad ImitareCritique Fine-Tuning: Learning to Critique is More Effective than
Learning to Imitate
Il Fine-Tuning Supervisionato (SFT) è comunemente utilizzato per addestrare modelli linguistici a imitare risposte annotate per istruzioni specifiche. In questo articolo, mettiamo in discussione questo paradigma e proponiamo il Fine-Tuning della Critica (CFT), una strategia in cui i modelli imparano a criticare risposte rumorose anziché semplicemente imitare quelle corrette. Ispirato ai processi di apprendimento umano che enfatizzano il pensiero critico, il CFT incoraggia un'analisi più approfondita e una comprensione sfumata, tratti spesso trascurati dal SFT standard. Per convalidare l'efficacia del CFT, costruiamo un dataset di 50K campioni da WebInstruct, utilizzando GPT-4o come insegnante per generare critiche sotto forma di (input=[query; risposta rumorosa], output=critica). Il CFT su questo dataset produce un miglioramento costante del 4-10% rispetto al SFT su sei benchmark matematici con diversi modelli di base come Qwen2.5, Qwen2.5-Math e DeepSeek-Math. Espandiamo ulteriormente ai dataset MetaMath e NuminaMath e osserviamo guadagni simili rispetto al SFT. In particolare, il nostro modello Qwen2.5-Math-CFT addestrato su soli 50K campioni si allinea o supera modelli competitivi come AceMath e Qwen2.5-Math-Instruct su gran parte dei benchmark, entrambi dei quali utilizzano oltre 2M campioni. Gli studi di ablazione mostrano che il CFT è robusto all'origine della risposta rumorosa e al modello di critica dell'insegnante. Attraverso questi risultati, sosteniamo che l'addestramento basato sulla critica offre un'alternativa più efficace per far progredire il ragionamento dei modelli linguistici.