Fine-Tuning Adattivo all'Entropia: Risoluzione dei Conflitti di Confidenza per Mitigare la Dimenticanza

Abstract

Il fine-tuning supervisionato (SFT) è il paradigma standard per l'adattamento di dominio, ma comporta frequentemente il costo della dimenticanza catastrofica. In netto contrasto, l'Apprendimento per Rinforzo (RL) on-policy preserva efficacemente le capacità generali. Investigiamo questa discrepanza e identifichiamo un divario distribuzionale fondamentale: mentre l'RL si allinea con la credenza interna del modello, l'SFT costringe il modello ad adattarsi alla supervisione esterna. Questo disallineamento si manifesta spesso come token di "Conflitti Fiduciosi", caratterizzati da bassa probabilità ma bassa entropia. In questi casi, il modello è molto fiducioso nella propria previsione ma è costretto ad apprendere una verità di base divergente, innescando aggiornamenti distruttivi del gradiente. Per affrontare ciò, proponiamo il Fine-Tuning Adattivo all'Entropia (EAFT). A differenza dei metodi che si basano esclusivamente sulla probabilità predittiva, l'EAFT utilizza l'entropia a livello di token come meccanismo di gate per distinguere tra incertezza epistemica e conflitto di conoscenza. Ciò consente al modello di apprendere da campioni incerti sopprimendo al contempo i gradienti sui dati conflittuali. Esperimenti estesi sulle serie Qwen e GLM (che spaziano da 4B a 32B parametri) in domini matematici, medici e agentici confermano la nostra ipotesi. L'EAFT eguaglia costantemente le prestazioni downstream dello SFT standard mitigando significativamente il degrado delle capacità generali.

English

Supervised Fine-Tuning (SFT) is the standard paradigm for domain adaptation, yet it frequently incurs the cost of catastrophic forgetting. In sharp contrast, on-policy Reinforcement Learning (RL) effectively preserves general capabilities. We investigate this discrepancy and identify a fundamental distributional gap: while RL aligns with the model's internal belief, SFT forces the model to fit external supervision. This mismatch often manifests as "Confident Conflicts" tokens characterized by low probability but low entropy. In these instances, the model is highly confident in its own prediction but is forced to learn a divergent ground truth, triggering destructive gradient updates. To address this, we propose Entropy-Adaptive Fine-Tuning (EAFT). Unlike methods relying solely on prediction probability, EAFT utilizes token-level entropy as a gating mechanism to distinguish between epistemic uncertainty and knowledge conflict. This allows the model to learn from uncertain samples while suppressing gradients on conflicting data. Extensive experiments on Qwen and GLM series (ranging from 4B to 32B parameters) across mathematical, medical, and agentic domains confirm our hypothesis. EAFT consistently matches the downstream performance of standard SFT while significantly mitigating the degradation of general capabilities.

Fine-Tuning Adattivo all'Entropia: Risoluzione dei Conflitti di Confidenza per Mitigare la Dimenticanza

Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

Abstract

Support