Cuando la Personalización Engaña: Comprendiendo y Mitigando Alucinaciones en LLMs Personalizados
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
January 16, 2026
Autores: Zhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang, Ming He, Jun Xu
cs.AI
Resumen
Los modelos de lenguaje grandes (LLM) personalizados adaptan el comportamiento del modelo a usuarios individuales para aumentar su satisfacción, aunque la personalización puede distorsionar inadvertidamente el razonamiento fáctico. Demostramos que cuando los LLM personalizados enfrentan consultas fácticas, se produce un fenómeno en el que el modelo genera respuestas alineadas con el historial previo del usuario en lugar de con la verdad objetiva, lo que resulta en alucinaciones inducidas por la personalización. Estas degradan la confiabilidad fáctica y pueden propagar creencias incorrectas, debido a un entrelazamiento representacional entre las representaciones de personalización y las fácticas. Para abordar este problema, proponemos Factuality-Preserving Personalized Steering (FPPS), un enfoque ligero en tiempo de inferencia que mitiga las distorsiones fácticas inducidas por la personalización mientras preserva el comportamiento personalizado. Además, presentamos PFQABench, el primer benchmark diseñado para evaluar conjuntamente la capacidad de respuesta a preguntas fácticas y personalizadas bajo personalización. Los experimentos en múltiples arquitecturas de LLM y métodos de personalización muestran que FPPS mejora sustancialmente la precisión fáctica manteniendo el rendimiento personalizado.
English
Personalized large language models (LLMs) adapt model behavior to individual users to enhance user satisfaction, yet personalization can inadvertently distort factual reasoning. We show that when personalized LLMs face factual queries, there exists a phenomenon where the model generates answers aligned with a user's prior history rather than the objective truth, resulting in personalization-induced hallucinations that degrade factual reliability and may propagate incorrect beliefs, due to representational entanglement between personalization and factual representations. To address this issue, we propose Factuality-Preserving Personalized Steering (FPPS), a lightweight inference-time approach that mitigates personalization-induced factual distortions while preserving personalized behavior. We further introduce PFQABench, the first benchmark designed to jointly evaluate factual and personalized question answering under personalization. Experiments across multiple LLM backbones and personalization methods show that FPPS substantially improves factual accuracy while maintaining personalized performance.