Когда персонализация вводит в заблуждение: понимание и предотвращение галлюцинаций в персонализированных больших языковых моделях
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
January 16, 2026
Авторы: Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang, Ming He, Jun Xu
cs.AI
Аннотация
Персонализированные большие языковые модели (LLМ) адаптируют поведение модели под индивидуальных пользователей для повышения удовлетворенности, однако персонализация может непреднамеренно искажать фактическое рассуждение. Мы демонстрируем, что когда персонализированные LLМ сталкиваются с фактическими запросами, возникает феномен, при котором модель генерирует ответы, согласованные с предысторией пользователя, а не с объективной истиной. Это приводит к персонализационным галлюцинациям, которые снижают фактическую достоверность и могут способствовать распространению ошибочных убеждений из-за репрезентационной запутанности между персонализацией и фактическими представлениями. Для решения этой проблемы мы предлагаем метод управления персонализацией с сохранением фактичности (FPPS) — легковесный подход на этапе вывода, который смягчает фактические искажения, вызванные персонализацией, сохраняя при этом персонализированное поведение. Мы также представляем PFQABench — первый бенчмарк, разработанный для совместной оценки фактических и персонализированных вопросно-ответных возможностей в условиях персонализации. Эксперименты на множестве архитектур LLМ и методов персонализации показывают, что FPPS существенно улучшает фактическую точность, сохраняя персонализированную производительность.
English
Personalized large language models (LLMs) adapt model behavior to individual users to enhance user satisfaction, yet personalization can inadvertently distort factual reasoning. We show that when personalized LLMs face factual queries, there exists a phenomenon where the model generates answers aligned with a user's prior history rather than the objective truth, resulting in personalization-induced hallucinations that degrade factual reliability and may propagate incorrect beliefs, due to representational entanglement between personalization and factual representations. To address this issue, we propose Factuality-Preserving Personalized Steering (FPPS), a lightweight inference-time approach that mitigates personalization-induced factual distortions while preserving personalized behavior. We further introduce PFQABench, the first benchmark designed to jointly evaluate factual and personalized question answering under personalization. Experiments across multiple LLM backbones and personalization methods show that FPPS substantially improves factual accuracy while maintaining personalized performance.