Perché il Fine-Tuning Incoraggia le Allucinazioni e Come Risolvere il Problema

Abstract

I grandi modelli linguistici tendono a generare affermazioni fattualmente errate (allucinazioni). Una fonte chiave di questi errori è l'esposizione a nuove informazioni fattuali attraverso il fine-tuning supervisionato (SFT), che può aumentare le allucinazioni relative alla conoscenza acquisita durante la pre-addestramento. In questo lavoro, esploriamo se le allucinazioni indotte da SFT possano essere mitigate utilizzando strumenti consolidati dalla letteratura sul continual learning, poiché esse sorgono come sottoprodotto del degrado della conoscenza durante l'addestramento. Proponiamo un metodo SFT basato sull'auto-distillazione che facilita un apprendimento fattuale efficace minimizzando al contempo le allucinazioni relative alla conoscenza preesistente, regolarizzando la deriva della distribuzione di output. Mostriamo inoltre che, in contesti in cui l'acquisizione di nuova conoscenza non è necessaria, sopprimere la plasticità fattuale congelando gruppi di parametri può preservare le prestazioni del compito riducendo le allucinazioni. Infine, investigiamo il meccanismo alla base delle allucinazioni indotte da SFT attraverso tre ipotesi: limitazioni di capacità, clonazione del comportamento e interferenza localizzata. I nostri esperimenti mostrano che un fattore principale è l'interferenza tra rappresentazioni semantiche sovrapposte, e che l'auto-distillazione ha successo mitigando tale interferenza.

English

Large language models are prone to hallucinating factually incorrect statements. A key source of these errors is exposure to new factual information through supervised fine-tuning (SFT), which can increase hallucinations w.r.t. knowledge acquired during pre-training. In this work, we explore whether SFT-induced hallucinations can be mitigated using established tools from the continual learning literature, since they arise as a by-product of knowledge degradation during training. We propose a self-distillation-based SFT method that facilitates effective factual learning while minimizing hallucinations w.r.t. pre-existing knowledge by regularizing output-distribution drift. We also show that, in settings where new knowledge acquisition is unnecessary, suppressing factual plasticity by freezing parameter groups, can preserve task performance while reducing hallucinations. Lastly, we investigate the mechanism behind SFT-induced hallucinations through three hypotheses: capacity limitations, behavior cloning, and localized interference. Our experiments show that a main driver is interference among overlapping semantic representations, and that self-distillation succeeds by mitigating this interference.

Perché il Fine-Tuning Incoraggia le Allucinazioni e Come Risolvere il Problema

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Abstract

Support