ChatPaper.aiChatPaper

Уязвимы ли большие языковые модели к атакам, подрывающим предпочтения (PUA)? Факторная методология анализа для диагностики компромисса между согласованием предпочтений и валидностью в реальных условиях

Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity

January 10, 2026
Авторы: Hongjun An, Yiliang Song, Jiangan Chen, Jiawei Shao, Chi Zhang, Xuelong Li
cs.AI

Аннотация

Обучение больших языковых моделей (LLM) часто оптимизируется для согласования с предпочтениями, поощряя выходные данные, которые воспринимаются как полезные и удобные для взаимодействия. Однако эта ориентация на предпочтения может быть эксплуатирована: манипулятивные промты могут направлять ответы в сторону угодливого согласия с пользователем и уводить от правдивой корректировки. В данной работе мы исследуем, уязвимы ли выровненные модели для *атак, подрывающих предпочтения* (Preference-Undermining Attacks, PUA) — класса манипулятивных стратегий промтинга, предназначенных для эксплуатации стремления модели угодить предпочтениям пользователя в ущерб правдивости. Мы предлагаем диагностическую методологию, которая обеспечивает более детализированный и директивный анализ по сравнению с агрегированными баллами бенчмарков, используя факторный оценочный framework для декомпозиции сдвигов, вызванных промтами, на интерпретируемые эффекты системных целей (ориентированных на истину vs. на предпочтения) и факторов диалога в стиле PUA (директивное управление, личная derogation, условное одобрение, отрицание реальности) в рамках контролируемого плана 2 × 2^4. Неожиданно, более продвинутые модели иногда более подвержены манипулятивным промтам. Помимо доминирующего фактора отрицания реальности, мы наблюдаем специфичные для моделей изменения знака и взаимодействия с факторами в стиле PUA, что указывает на необходимость tailored защит, а не единой устойчивости. Эти результаты предлагают новую, воспроизводимую методологию факторного оценивания, которая обеспечивает более детальную диагностику для пост-тренировочных процессов, таких как RLHF, позволяя достичь лучших компромиссов в продуктовой итерации LLM за счет более тонкого понимания рисков согласования предпочтений и воздействия манипулятивных промтов.
English
Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled 2 times 2^4 design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.
PDF113January 16, 2026