個人化が誤解を招くとき:パーソナライズドLLMにおける幻覚の理解と軽減
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
January 16, 2026
著者: Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang, Ming He, Jun Xu
cs.AI
要旨
個人化された大規模言語モデル(LLM)は、ユーザー満足度を高めるためにモデルの挙動を個々のユーザーに適応させるが、個人化は事実推論を意図せず歪める可能性がある。本論文では、個人化されたLLMが事実に関する問いに対処する際、客観的な真実ではなくユーザーの過去の履歴に沿った回答を生成する現象が存在することを示す。これは「個人化誘発型ハルシネーション」を引き起こし、事実の信頼性を損ない、誤った信念の伝播を招く可能性がある。この現象は、個人化と事実表現の間の表現的な絡み合いに起因する。この問題に対処するため、軽量な推論時アプローチであるFactuality-Preserving Personalized Steering(FPPS)を提案する。FPPSは個人化された挙動を維持しつつ、個人化による事実歪曲を軽減する。さらに、個人化条件下での事実質問応答と個人化性能を統合的に評価する初のベンチマークPFQABenchを導入する。複数のLLM基盤モデルと個人化手法を用いた実験により、FPPSが個人化性能を維持しながら事実精度を大幅に向上させることを実証する。
English
Personalized large language models (LLMs) adapt model behavior to individual users to enhance user satisfaction, yet personalization can inadvertently distort factual reasoning. We show that when personalized LLMs face factual queries, there exists a phenomenon where the model generates answers aligned with a user's prior history rather than the objective truth, resulting in personalization-induced hallucinations that degrade factual reliability and may propagate incorrect beliefs, due to representational entanglement between personalization and factual representations. To address this issue, we propose Factuality-Preserving Personalized Steering (FPPS), a lightweight inference-time approach that mitigates personalization-induced factual distortions while preserving personalized behavior. We further introduce PFQABench, the first benchmark designed to jointly evaluate factual and personalized question answering under personalization. Experiments across multiple LLM backbones and personalization methods show that FPPS substantially improves factual accuracy while maintaining personalized performance.