Por que o Ajuste Fino Incentiva Alucinações e Como Corrigi-lo
Why Fine-Tuning Encourages Hallucinations and How to Fix It
April 16, 2026
Autores: Guy Kaplan, Zorik Gekhman, Zhen Zhu, Lotem Rozner, Yuval Reif, Swabha Swayamdipta, Derek Hoiem, Roy Schwartz
cs.AI
Resumo
Os modelos de linguagem de grande escala são propensos a alucinações, produzindo afirmações factualmente incorretas. Uma fonte fundamental desses erros é a exposição a novas informações factuais por meio do ajuste fino supervisionado (SFT), que pode aumentar as alucinações em relação ao conhecimento adquirido durante o pré-treinamento. Neste trabalho, investigamos se as alucinações induzidas pelo SFT podem ser mitigadas utilizando ferramentas consolidadas da literatura de aprendizado contínuo, uma vez que elas surgem como um subproduto da degradação do conhecimento durante o treinamento. Propomos um método de SFT baseado em autodistilação que facilita a aprendizagem factual eficaz, minimizando as alucinações sobre o conhecimento pré-existente, por meio da regularização do desvio da distribuição de saída. Também demonstramos que, em cenários onde a aquisição de novo conhecimento é desnecessária, suprimir a plasticidade factual através do congelamento de grupos de parâmetros pode preservar o desempenho da tarefa enquanto reduz as alucinações. Por fim, investigamos o mecanismo por trás das alucinações induzidas pelo SFT por meio de três hipóteses: limitações de capacidade, clonagem de comportamento e interferência localizada. Nossos experimentos mostram que um dos principais fatores é a interferência entre representações semânticas sobrepostas e que a autodistilação tem sucesso por mitigar essa interferência.
English
Large language models are prone to hallucinating factually incorrect statements. A key source of these errors is exposure to new factual information through supervised fine-tuning (SFT), which can increase hallucinations w.r.t. knowledge acquired during pre-training. In this work, we explore whether SFT-induced hallucinations can be mitigated using established tools from the continual learning literature, since they arise as a by-product of knowledge degradation during training. We propose a self-distillation-based SFT method that facilitates effective factual learning while minimizing hallucinations w.r.t. pre-existing knowledge by regularizing output-distribution drift. We also show that, in settings where new knowledge acquisition is unnecessary, suppressing factual plasticity by freezing parameter groups, can preserve task performance while reducing hallucinations. Lastly, we investigate the mechanism behind SFT-induced hallucinations through three hypotheses: capacity limitations, behavior cloning, and localized interference. Our experiments show that a main driver is interference among overlapping semantic representations, and that self-distillation succeeds by mitigating this interference.