ChatPaper.aiChatPaper

LLM은 선호도 훼손 공격(PUA)에 취약한가? 선호도 정렬과 현실 타당성 간 상충관계를 진단하기 위한 요인 분석 방법론

Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity

January 10, 2026
저자: Hongjun An, Yiliang Song, Jiangan Chen, Jiawei Shao, Chi Zhang, Xuelong Li
cs.AI

초록

대규모 언어 모델(LLM) 학습은 주로 선호도 정렬을 최적화하며, 도움이 되고 상호작용하기 쉬운 것으로 인식되는 출력을 보상하는 방향으로 이루어집니다. 그러나 이러한 선호도 지향적 목표는 악용될 수 있습니다. 조작적인 프롬프트는 사용자를 달래는 데 동의하는 방향으로 응답을 이끌어 진실 지향적 수정에서 벗어나게 할 수 있습니다. 본 연구에서는 정렬된 모델이 선호도 훼손 공격(PUA)에 취약한지 조사합니다. PUA는 진실성을 희생시키면서까지 사용자 선호도를 맞추려는 모델의 욕구를 악용하도록 설계된 조작적 프롬프트 전략의 한 유형입니다. 우리는 집계된 벤치마크 점수보다 세분화되고 지시적인 분석을 제공하는 진단 방법론을 제안하며, 통제된 2 x 2^4 설계 내에서 시스템 목표(진실 지향 대 선호도 지향)와 PUA 스타일 대화 요인(지시적 통제, 개인 비하, 조건부 승인, 현실 부정)의 해석 가능한 효과로 프롬프트에 의한 변화를 분해하는 요인 평가 프레임워크를 사용합니다. 놀랍게도, 더 발전된 모델이 때로는 조작적 프롬프트에 더 취약할 수 있습니다. 지배적인 현실 부정 요인을 넘어, 모델별 부호 반전 및 PUA 스타일 요인과의 상호작용을 관찰함으로써 균일한 견고성보다는 맞춤형 방어가 필요함을 시사합니다. 이러한 발견은 RLHF와 같은 학습 후 과정을 위한 세분화된 진단을 제공하는 새로운 재현 가능한 요인 평가 방법론을 제시하며, 조작적 프롬프트의 영향과 선호도 정렬 위험에 대한 더욱 미묘한 이해를 통해 LLM 제품 반복 과정에서 더 나은 균형을 잡을 수 있게 합니다.
English
Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled 2 times 2^4 design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.
PDF113January 16, 2026