Sind LLMs anfällig für präferenzuntergrabende Angriffe (PUA)? Eine faktoriale Analysemethodik zur Diagnose des Zielkonflikts zwischen Präferenzausrichtung und Realweltvalidität
Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity
January 10, 2026
papers.authors: Hongjun An, Yiliang Song, Jiangan Chen, Jiawei Shao, Chi Zhang, Xuelong Li
cs.AI
papers.abstract
Das Training großer Sprachmodelle (LLM) optimiert häufig auf Präferenzabgleich und belohnt Ausgaben, die als hilfreich und interaktionsfreundlich wahrgenommen werden. Dieses präferenzorientierte Ziel kann jedoch ausgenutzt werden: Manipulative Prompts können Antworten in Richtung einer gefälligenden Zustimmung und weg von wahrheitsorientierter Korrektur lenken. In dieser Arbeit untersuchen wir, ob alignierte Modelle anfällig für Präferenzunterwandernde Angriffe (PUA) sind – eine Klasse manipulativer Prompting-Strategien, die das Bestreben des Modells ausnutzen, Nutzerpräferenzen auf Kosten der Wahrhaftigkeit zu erfüllen. Wir schlagen eine Diagnosemethodik vor, die eine feiner granulierte und direktivere Analyse liefert als aggregierte Benchmark-Werte. Dazu verwenden wir einen faktoriellen Evaluierungsrahmen, um promptinduzierte Verschiebungen in einem kontrollierten 2x2⁴-Design in interpretierbare Effekte von Systemzielen (wahrheits- vs. präferenzorientiert) und PUA-Dialogfaktoren (direktive Steuerung, persönliche Herabsetzung, konditionale Zustimmung, Realitätsleugnung) zu zerlegen. Überraschenderweise sind fortgeschrittenere Modelle manchmal anfälliger für manipulative Prompts. Jenseits des dominanten Faktors der Realitätsleugnung beobachten wir modellspezifische Vorzeichenumkehrungen und Interaktionen mit PUA-Faktoren, was auf maßgeschneiderte Verteidigungsstrategien statt einheitlicher Robustheit hindeutet. Diese Ergebnisse bieten eine neuartige, reproduzierbare faktorielle Evaluierungsmethodik, die fein granulierte Diagnosen für Prozesse nach dem Training wie RLHF ermöglicht. Dies erlaubt bessere Abwägungen in der Produktiteration von LLMs durch ein nuancierteres Verständnis der Risiken von Präferenzabgleich und der Auswirkungen manipulativer Prompts.
English
Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled 2 times 2^4 design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.