ChatPaper.aiChatPaper

Wenn Personalisierung in die Irre führt: Verständnis und Minderung von Halluzinationen in personalisierten LLMs

When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

January 16, 2026
papers.authors: Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang, Ming He, Jun Xu
cs.AI

papers.abstract

Personalisierte große Sprachmodelle (LLMs) passen das Modellverhalten an individuelle Nutzer an, um die Nutzerzufriedenheit zu steigern. Jedoch kann Personalisierung unbeabsichtigt das faktische Schlussfolgern verzerren. Wir zeigen, dass personalisierte LLMs bei faktischen Anfragen ein Phänomen aufweisen, bei dem das Modell Antworten generiert, die eher mit der bisherigen Nutzerhistorie übereinstimmen als mit der objektiven Wahrheit. Dies führt zu personalisierungsinduzierten Halluzinationen, welche die faktische Zuverlässigkeit beeinträchtigen und aufgrund einer repräsentationalen Verschränkung zwischen Personalisierungs- und Faktenrepräsentationen falsche Überzeugungen verbreiten können. Um dieses Problem zu adressieren, schlagen wir Factuality-Preserving Personalized Steering (FPPS) vor, einen leichtgewichtigen Ansatz zur Inferenzzeit, der personalisierungsinduzierte faktische Verzerrungen mildert, während personalisiertes Verhalten erhalten bleibt. Wir führen zudem PFQABench ein, den ersten Benchmark, der entwickelt wurde, um faktisches und personalisiertes Frage-Antworten unter Personalisierung gemeinsam zu evaluieren. Experimente mit verschiedenen LLM-Architekturen und Personalisierungsmethoden zeigen, dass FPPS die faktische Genauigkeit erheblich verbessert und gleichzeitig die Personalisierungsleistung aufrechterhält.
English
Personalized large language models (LLMs) adapt model behavior to individual users to enhance user satisfaction, yet personalization can inadvertently distort factual reasoning. We show that when personalized LLMs face factual queries, there exists a phenomenon where the model generates answers aligned with a user's prior history rather than the objective truth, resulting in personalization-induced hallucinations that degrade factual reliability and may propagate incorrect beliefs, due to representational entanglement between personalization and factual representations. To address this issue, we propose Factuality-Preserving Personalized Steering (FPPS), a lightweight inference-time approach that mitigates personalization-induced factual distortions while preserving personalized behavior. We further introduce PFQABench, the first benchmark designed to jointly evaluate factual and personalized question answering under personalization. Experiments across multiple LLM backbones and personalization methods show that FPPS substantially improves factual accuracy while maintaining personalized performance.
PDF213January 20, 2026