개인화가 오해를 부르는 순간: 맞춤형 LLM의 환각 현상 이해와 완화 방안
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
January 16, 2026
저자: Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang, Ming He, Jun Xu
cs.AI
초록
개인화된 대규모 언어 모델(LLM)은 사용자 만족도를 높이기 위해 모델의 행동을 개별 사용자에 맞게 조정하지만, 이러한 개인화는 사실 추론을 의도치 않게 왜곡할 수 있습니다. 본 연구는 개인화된 LLM이 사실적 질의에 직면할 때, 객관적 진실보다는 사용자의 이전 기록과 일치하는 답변을 생성하는 현상이 존재함을 보여줍니다. 이로 인해 개인화로 유발된 환각(hallucination)이 발생하여 사실적 신뢰도를 저하시키고 잘못된 신념을 확산시킬 수 있으며, 이는 개인화 표현과 사실 표현 간의 표현적 얽힘(representational entanglement) 때문입니다. 이러한 문제를 해결하기 위해 우리는 경량의 추론 시점 접근법인 사실성 보존 개인화 조정(FPPS)을 제안합니다. FPPS는 개인화된 행동을 유지하면서 개인화로 인한 사실 왜곡을 완화합니다. 또한 우리는 개인화 하에서 사실적 및 개인화된 질의응답을 함께 평가하기 위해 최초로 설계된 벤치마크인 PFQABench를 소개합니다. 다양한 LLM 백본 및 개인화 방법을 통한 실험 결과, FPPS가 개인화된 성능을 유지하면서 사실적 정확도를 크게 향상시킴을 확인했습니다.
English
Personalized large language models (LLMs) adapt model behavior to individual users to enhance user satisfaction, yet personalization can inadvertently distort factual reasoning. We show that when personalized LLMs face factual queries, there exists a phenomenon where the model generates answers aligned with a user's prior history rather than the objective truth, resulting in personalization-induced hallucinations that degrade factual reliability and may propagate incorrect beliefs, due to representational entanglement between personalization and factual representations. To address this issue, we propose Factuality-Preserving Personalized Steering (FPPS), a lightweight inference-time approach that mitigates personalization-induced factual distortions while preserving personalized behavior. We further introduce PFQABench, the first benchmark designed to jointly evaluate factual and personalized question answering under personalization. Experiments across multiple LLM backbones and personalization methods show that FPPS substantially improves factual accuracy while maintaining personalized performance.