Waarom finetunen hallucinaties aanmoedigt en hoe dit op te lossen
Why Fine-Tuning Encourages Hallucinations and How to Fix It
April 16, 2026
Auteurs: Guy Kaplan, Zorik Gekhman, Zhen Zhu, Lotem Rozner, Yuval Reif, Swabha Swayamdipta, Derek Hoiem, Roy Schwartz
cs.AI
Samenvatting
Grote taalmodelen hebben de neiging tot het hallucineren van feitelijk onjuiste beweringen. Een belangrijke bron van deze fouten is blootstelling aan nieuwe feitelijke informatie door supervised fine-tuning (SFT), wat hallucinaties kan doen toenemen ten opzichte van kennis die tijdens de pre-training is verworven. In dit werk onderzoeken we of door SFT geïnduceerde hallucinaties kunnen worden verminderd met gevestigde technieken uit de literatuur over continu leren, aangezien ze ontstaan als bijproduct van kennisdegradatie tijdens de training. Wij stellen een op zelf-distillatie gebaseerde SFT-methode voor die effectief feitelijk leren mogelijk maakt en tegelijkertijd hallucinaties ten opzichte van bestaande kennis minimaliseert door drift in de outputverdeling te regulariseren. Wij tonen ook aan dat, in situaties waar het verwerven van nieuwe kennis niet nodig is, het onderdrukken van feitelijke plasticiteit door parametersecties te bevriezen, de taakprestaties kan behouden terwijl hallucinaties worden verminderd. Ten slotte onderzoeken we het mechanisme achter door SFT geïnduceerde hallucinaties aan de hand van drie hypothesen: capaciteitsbeperkingen, gedragsklonering en gelokaliseerde interferentie. Onze experimenten tonen aan dat een belangrijke drijvende kracht interferentie tussen overlappende semantische representaties is, en dat zelf-distillatie slaagt door deze interferentie te verminderen.
English
Large language models are prone to hallucinating factually incorrect statements. A key source of these errors is exposure to new factual information through supervised fine-tuning (SFT), which can increase hallucinations w.r.t. knowledge acquired during pre-training. In this work, we explore whether SFT-induced hallucinations can be mitigated using established tools from the continual learning literature, since they arise as a by-product of knowledge degradation during training. We propose a self-distillation-based SFT method that facilitates effective factual learning while minimizing hallucinations w.r.t. pre-existing knowledge by regularizing output-distribution drift. We also show that, in settings where new knowledge acquisition is unnecessary, suppressing factual plasticity by freezing parameter groups, can preserve task performance while reducing hallucinations. Lastly, we investigate the mechanism behind SFT-induced hallucinations through three hypotheses: capacity limitations, behavior cloning, and localized interference. Our experiments show that a main driver is interference among overlapping semantic representations, and that self-distillation succeeds by mitigating this interference.