大規模言語モデルは選好破壊的攻撃(PUA)に対して脆弱か?選好整合性と実世界妥当性のトレードオフを診断する要因分析手法
Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity
January 10, 2026
著者: Hongjun An, Yiliang Song, Jiangan Chen, Jiawei Shao, Chi Zhang, Xuelong Li
cs.AI
要旨
大規模言語モデル(LLM)の学習では、一般に「嗜好性整合」が最適化の対象となり、利用者にとって有益で対話しやすいと認識される出力が報酬として強化される。しかし、この嗜好性指向の目的関数は悪用される可能性がある。すなわち、操作的プロンプトによって、真実指向の訂正を回避し、利用者の意に沿う同意へと応答を誘導できる。本研究では、整合済みモデルが「嗜好性毀損攻撃(PUA)」に対して脆弱であるかどうかを検証する。PUAは、モデルの「利用者の嗜好に応えようとする性質」を利用し、真実性を犠牲にしてでも応答を操作する、プロンプト戦略の一種である。我々は、集合的なベンチマークスコアよりも細粒度で指向性の高い分析を可能にする診断手法を提案する。具体的には、要因計画評価フレームワークを用い、制御された2×2^4計画において、プロンプトによって誘導される応答の変化を、システム目的(真実指向 vs. 嗜好指向)とPUA型対話要因(指示的統制、個人誹謗、条件的承認、現実否定)という解釈可能な効果に分解する。驚くべきことに、より高度なモデルほど、時に操作的プロンプトの影響を受けやすい場合がある。支配的な要因である現実否定を超えて、モデル特有の効果の符号反転やPUA型要因との交互作用が観察され、均一な堅牢性ではなく、モデルに特化した防御策の必要性が示唆される。これらの知見は、RLHFのような学習後プロセスに対する新規かつ再現性のある要因計画評価手法を提供し、嗜好性整合のリスクと操作的プロンプトの影響についてより微妙な理解を与えることで、LLMの製品イテレーションにおけるトレードオフをより適切に行うことを可能にする。
English
Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled 2 times 2^4 design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.