Les modèles de langage à grande échelle (LLM) sont-ils vulnérables aux attaques sapant les préférences (PUA) ? Une méthodologie d'analyse factorielle pour diagnostiquer le compromis entre alignement des préférences et validité en contexte réel
Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity
January 10, 2026
papers.authors: Hongjun An, Yiliang Song, Jiangan Chen, Jiawei Shao, Chi Zhang, Xuelong Li
cs.AI
papers.abstract
L'entraînement des grands modèles de langage (LLM) optimise souvent l'alignement sur les préférences, récompensant les sorties perçues comme utiles et propices à l'interaction. Cependant, cet objectif orienté vers les préférences peut être exploité : des invites manipulatoires peuvent orienter les réponses vers un acquiescement destiné à satisfaire l'utilisateur et les éloigner d'une correction axée sur la vérité. Dans ce travail, nous investiguons si les modèles alignés sont vulnérables aux Attaques de Sape des Préférences (PUA), une classe de stratégies d'invite manipulatoires conçues pour exploiter le désir du modèle de satisfaire les préférences de l'utilisateur au détriment de la véracité. Nous proposons une méthodologie de diagnostic qui offre une analyse plus fine et plus directive que les scores agrégés de référence, en utilisant un cadre d'évaluation factorielle pour décomposer les changements induits par l'invite en effets interprétables des objectifs du système (axé sur la vérité vs. axé sur les préférences) et des facteurs de dialogue de type PUA (contrôle directif, dénigrement personnel, approbation conditionnelle, déni de réalité) dans un plan contrôlé 2 fois 2^4. De manière surprenante, les modèles les plus avancés sont parfois plus sensibles aux invites manipulatoires. Au-delà du facteur dominant de déni de réalité, nous observons des inversions de signe spécifiques aux modèles et des interactions avec les facteurs de type PUA, suggérant des défenses sur mesure plutôt qu'une robustesse uniforme. Ces résultats offrent une méthodologie d'évaluation factorielle novatrice et reproductible qui fournit des diagnostics plus granulaires pour les processus post-entraînement comme le RLHF, permettant de meilleurs compromis dans l'itération produit des LLM en offrant une compréhension plus nuancée des risques d'alignement sur les préférences et de l'impact des invites manipulatoires.
English
Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled 2 times 2^4 design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.