Wanneer personalisatie misleidt: het begrijpen en beperken van hallucinaties in gepersonaliseerde grote taalmodellen

Samenvatting

Gepersonaliseerde grote taalmodellen (LLM's) passen het modelgedrag aan individuele gebruikers aan om de gebruikerservaring te verbeteren, maar personalisatie kan onbedoeld de feitelijke redenering verstoren. Wij tonen aan dat wanneer gepersonaliseerde LLM's worden geconfronteerd met feitelijke vragen, er een fenomeen optreedt waarbij het model antwoorden genereert die zijn afgestemd op de eerdere geschiedenis van een gebruiker in plaats van op de objectieve waarheid. Dit resulteert in personalisatie-geïnduceerde hallucinaties die de feitelijke betrouwbaarheid aantasten en onjuiste overtuigingen kunnen verspreiden, als gevolg van verstrengeling tussen gepersonaliseerde en feitelijke representaties. Om dit probleem aan te pakken, stellen wij Feitelijkheid-Bewarende Gepersonaliseerde Sturing (FPPS) voor, een lichtgewicht benadering tijdens inferentie die personalisatie-geïnduceerde feitelijke vervormingen vermindert terwijl gepersonaliseerd gedrag behouden blijft. Wij introduceren verder PFQABench, de eerste benchmark die is ontworpen om feitelijke en gepersonaliseerde vraagbeantwoording onder personalisatie gezamenlijk te evalueren. Experimenten met verschillende LLM-backbones en personalisatiemethoden tonen aan dat FPPS de feitelijke nauwkeurigheid aanzienlijk verbetert terwijl de gepersonaliseerde prestaties behouden blijven.

English

Personalized large language models (LLMs) adapt model behavior to individual users to enhance user satisfaction, yet personalization can inadvertently distort factual reasoning. We show that when personalized LLMs face factual queries, there exists a phenomenon where the model generates answers aligned with a user's prior history rather than the objective truth, resulting in personalization-induced hallucinations that degrade factual reliability and may propagate incorrect beliefs, due to representational entanglement between personalization and factual representations. To address this issue, we propose Factuality-Preserving Personalized Steering (FPPS), a lightweight inference-time approach that mitigates personalization-induced factual distortions while preserving personalized behavior. We further introduce PFQABench, the first benchmark designed to jointly evaluate factual and personalized question answering under personalization. Experiments across multiple LLM backbones and personalization methods show that FPPS substantially improves factual accuracy while maintaining personalized performance.

Wanneer personalisatie misleidt: het begrijpen en beperken van hallucinaties in gepersonaliseerde grote taalmodellen

When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

Samenvatting

Support