Quando la Personalizzazione Trae in Inganno: Comprendere e Mitigare le Allucinazioni nei Modelli Linguistici Personalizzati

Abstract

I modelli linguistici di grandi dimensioni (LLM) personalizzati adattano il comportamento del modello ai singoli utenti per migliorare la soddisfazione dell'utente, ma la personalizzazione può inavvertitamente distorcere il ragionamento fattuale. Dimostriamo che quando gli LLM personalizzati affrontano interrogativi fattuali, si verifica un fenomeno per cui il modello genera risposte allineatesi alla storia precedente dell'utente piuttosto che alla verità oggettiva, dando luogo a allucinazioni indotte dalla personalizzazione che degradano l'affidabilità fattuale e possono propagare credenze errate, a causa di un entanglement rappresentazionale tra personalizzazione e rappresentazioni fattuali. Per affrontare questo problema, proponiamo Factuality-Preserving Personalized Steering (FPPS), un approccio leggero in fase di inferenza che mitiga le distorsioni fattuali indotte dalla personalizzazione preservando il comportamento personalizzato. Introduciamo inoltre PFQABench, il primo benchmark progettato per valutare congiuntamente l'answer answering fattuale e personalizzato sotto personalizzazione. Esperimenti su molteplici architetture LLM e metodi di personalizzazione mostrano che FPPS migliora sostanzialmente l'accuratezza fattuale mantenendo le prestazioni personalizzate.

English

Personalized large language models (LLMs) adapt model behavior to individual users to enhance user satisfaction, yet personalization can inadvertently distort factual reasoning. We show that when personalized LLMs face factual queries, there exists a phenomenon where the model generates answers aligned with a user's prior history rather than the objective truth, resulting in personalization-induced hallucinations that degrade factual reliability and may propagate incorrect beliefs, due to representational entanglement between personalization and factual representations. To address this issue, we propose Factuality-Preserving Personalized Steering (FPPS), a lightweight inference-time approach that mitigates personalization-induced factual distortions while preserving personalized behavior. We further introduce PFQABench, the first benchmark designed to jointly evaluate factual and personalized question answering under personalization. Experiments across multiple LLM backbones and personalization methods show that FPPS substantially improves factual accuracy while maintaining personalized performance.

Quando la Personalizzazione Trae in Inganno: Comprendere e Mitigare le Allucinazioni nei Modelli Linguistici Personalizzati

When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

Abstract

Support