Quando a Personalização Engana: Compreendendo e Mitigando Alucinações em LLMs Personalizados

Resumo

Os grandes modelos de linguagem (LLMs) personalizados adaptam o comportamento do modelo a utilizadores individuais para aumentar a satisfação do utilizador, contudo a personalização pode inadvertidamente distorcer o raciocínio factual. Demonstramos que, quando LLMs personalizados enfrentam consultas factuais, ocorre um fenômeno em que o modelo gera respostas alinhadas com o histórico prévio do utilizador em vez da verdade objetiva, resultando em alucinações induzidas pela personalização que degradam a confiabilidade factual e podem propagar crenças incorretas, devido ao entrelaçamento representacional entre as representações de personalização e factuais. Para resolver este problema, propomos o Direcionamento Personalizado com Preservação da Factualidade (FPPS), uma abordagem leve durante a inferência que mitiga as distorções factuais induzidas pela personalização, preservando o comportamento personalizado. Introduzimos ainda o PFQABench, o primeiro benchmark concebido para avaliar conjuntamente a resposta a perguntas factuais e personalizadas sob personalização. Experiências com várias arquiteturas de LLM e métodos de personalização mostram que o FPPS melhora substancialmente a precisão factual mantendo o desempenho personalizado.

English

Personalized large language models (LLMs) adapt model behavior to individual users to enhance user satisfaction, yet personalization can inadvertently distort factual reasoning. We show that when personalized LLMs face factual queries, there exists a phenomenon where the model generates answers aligned with a user's prior history rather than the objective truth, resulting in personalization-induced hallucinations that degrade factual reliability and may propagate incorrect beliefs, due to representational entanglement between personalization and factual representations. To address this issue, we propose Factuality-Preserving Personalized Steering (FPPS), a lightweight inference-time approach that mitigates personalization-induced factual distortions while preserving personalized behavior. We further introduce PFQABench, the first benchmark designed to jointly evaluate factual and personalized question answering under personalization. Experiments across multiple LLM backbones and personalization methods show that FPPS substantially improves factual accuracy while maintaining personalized performance.

Quando a Personalização Engana: Compreendendo e Mitigando Alucinações em LLMs Personalizados

When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

Resumo

Support