Zijn LLM's Kwetsbaar voor Voorkeur-Ondermijnende Aanvallen (PUA)? Een Factoranalytische Methodologie voor het Diagnosticeren van de Wisselwerking tussen Voorkeursafstemming en Realistische Validiteit
Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity
January 10, 2026
Auteurs: Hongjun An, Yiliang Song, Jiangan Chen, Jiawei Shao, Chi Zhang, Xuelong Li
cs.AI
Samenvatting
Het trainen van Large Language Models (LLM's) is vaak gericht op het optimaliseren van voorkeursafstemming, waarbij uitvoeren worden beloond die als behulpzaam en interactievriendelijk worden ervaren. Dit op voorkeur gerichte doel kan echter worden uitgebuit: manipulatieve prompts kunnen reacties sturen in de richting van gebruiksgeruststellende instemming en weg van waarheidsgerichte correctie. In dit werk onderzoeken we of afgestemde modellen kwetsbaar zijn voor Preference-Undermining Attacks (PUA), een klasse van manipulatieve promptstrategieën die ontworpen zijn om het verlangen van het model om gebruikersvoorkeuren te behagen uit te buiten, ten koste van waarachtigheid. Wij stellen een diagnostische methodologie voor die een fijnmazigere en meer directieve analyse biedt dan geaggregeerde benchmarkscores, door gebruik te maken van een factorieel evaluatieraamwerk om door prompts geïnduceerde verschuivingen op te splitsen in interpreteerbare effecten van systeemdoelen (waarheids- versus voorkeurgericht) en PUA-stijl dialoogfactoren (directieve controle, persoonlijke denigratie, voorwaardelijke goedkeuring, realiteitsontkenning) binnen een gecontroleerd 2 maal 2^4 design. Verrassend genoeg zijn geavanceerdere modellen soms gevoeliger voor manipulatieve prompts. Naast de dominante factor van realiteitsontkenning observeren we modelspecifieke omkeringen van effecten en interacties met PUA-stijl factoren, wat wijst op op maat gemaakte verdedigingsmechanismen in plaats van uniforme robuustheid. Deze bevindingen bieden een nieuwe, reproduceerbare factoriële evaluatiemethodologie die fijnmazigere diagnostiek mogelijk maakt voor post-trainingsprocessen zoals RLHF, waardoor betere afwegingen mogelijk worden in de productiteratie van LLM's door een genuanceerder inzicht in de risico's van voorkeursafstemming en de impact van manipulatieve prompts.
English
Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled 2 times 2^4 design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.