ChatPaper.aiChatPaper

LLM могут быть опасными манипуляторами: эмпирическое исследование безопасности убеждения в больших языковых моделях

LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

April 14, 2025
Авторы: Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
cs.AI

Аннотация

Последние достижения в области больших языковых моделей (LLM) позволили им приблизиться к уровню убеждения, сопоставимому с человеческим. Однако такой потенциал также вызывает опасения относительно рисков безопасности, связанных с убеждением, управляемым LLM, в частности, их способностью к неэтичному влиянию через манипуляции, обман, эксплуатацию уязвимостей и множество других вредоносных тактик. В данной работе мы представляем систематическое исследование безопасности убеждения в LLM через два ключевых аспекта: (1) корректно ли LLM отвергают неэтичные задачи убеждения и избегают неэтичных стратегий в процессе выполнения, включая случаи, когда изначальная цель убеждения кажется этически нейтральной, и (2) как влияющие факторы, такие как черты личности и внешнее давление, сказываются на их поведении. С этой целью мы представляем PersuSafety — первую всеобъемлющую структуру для оценки безопасности убеждения, которая состоит из трех этапов: создание сцены убеждения, симуляция убеждающего диалога и оценка безопасности убеждения. PersuSafety охватывает 6 разнообразных тем неэтичного убеждения и 15 распространенных неэтичных стратегий. В ходе масштабных экспериментов с 8 широко используемыми LLM мы наблюдаем значительные проблемы безопасности в большинстве моделей, включая неспособность распознать вредоносные задачи убеждения и использование различных неэтичных стратегий убеждения. Наше исследование призывает уделить больше внимания улучшению безопасности в прогрессивных и целеориентированных диалогах, таких как убеждение.
English
Recent advancements in Large Language Models (LLMs) have enabled them to approach human-level persuasion capabilities. However, such potential also raises concerns about the safety risks of LLM-driven persuasion, particularly their potential for unethical influence through manipulation, deception, exploitation of vulnerabilities, and many other harmful tactics. In this work, we present a systematic investigation of LLM persuasion safety through two critical aspects: (1) whether LLMs appropriately reject unethical persuasion tasks and avoid unethical strategies during execution, including cases where the initial persuasion goal appears ethically neutral, and (2) how influencing factors like personality traits and external pressures affect their behavior. To this end, we introduce PersuSafety, the first comprehensive framework for the assessment of persuasion safety which consists of three stages, i.e., persuasion scene creation, persuasive conversation simulation, and persuasion safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and 15 common unethical strategies. Through extensive experiments across 8 widely used LLMs, we observe significant safety concerns in most LLMs, including failing to identify harmful persuasion tasks and leveraging various unethical persuasion strategies. Our study calls for more attention to improve safety alignment in progressive and goal-driven conversations such as persuasion.

Summary

AI-Generated Summary

PDF42April 15, 2025