LLM Kan een Gevaarlijke Overtuiger Zijn: Empirisch Onderzoek naar Overtuigingsveiligheid in Grote Taalmodellen
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models
April 14, 2025
Auteurs: Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
cs.AI
Samenvatting
Recente ontwikkelingen in Large Language Models (LLMs) hebben het mogelijk gemaakt dat ze menselijk niveau van overtuigingskracht benaderen. Dit potentieel roept echter ook zorgen op over de veiligheidsrisico's van LLM-gestuurde overtuiging, met name hun potentieel voor onethische beïnvloeding door manipulatie, misleiding, uitbuiting van kwetsbaarheden en vele andere schadelijke tactieken. In dit werk presenteren we een systematisch onderzoek naar de veiligheid van LLM-overtuiging via twee kritieke aspecten: (1) of LLMs onethische overtuigingstaken correct afwijzen en onethische strategieën tijdens uitvoering vermijden, inclusief gevallen waarin het initiële overtuigingsdoel ethisch neutraal lijkt, en (2) hoe beïnvloedende factoren zoals persoonlijkheidskenmerken en externe druk hun gedrag beïnvloeden. Hiertoe introduceren we PersuSafety, het eerste uitgebreide raamwerk voor de beoordeling van overtuigingsveiligheid, dat bestaat uit drie fasen, namelijk het creëren van een overtuigingsscène, het simuleren van overtuigende gesprekken en de beoordeling van overtuigingsveiligheid. PersuSafety behandelt 6 diverse onethische overtuigingsthema's en 15 veelvoorkomende onethische strategieën. Door uitgebreide experimenten met 8 veelgebruikte LLMs observeren we significante veiligheidsproblemen bij de meeste LLMs, waaronder het niet herkennen van schadelijke overtuigingstaken en het inzetten van verschillende onethische overtuigingsstrategieën. Onze studie roept op tot meer aandacht voor het verbeteren van veiligheidsafstemming in progressieve en doelgerichte gesprekken, zoals overtuiging.
English
Recent advancements in Large Language Models (LLMs) have enabled them to
approach human-level persuasion capabilities. However, such potential also
raises concerns about the safety risks of LLM-driven persuasion, particularly
their potential for unethical influence through manipulation, deception,
exploitation of vulnerabilities, and many other harmful tactics. In this work,
we present a systematic investigation of LLM persuasion safety through two
critical aspects: (1) whether LLMs appropriately reject unethical persuasion
tasks and avoid unethical strategies during execution, including cases where
the initial persuasion goal appears ethically neutral, and (2) how influencing
factors like personality traits and external pressures affect their behavior.
To this end, we introduce PersuSafety, the first comprehensive framework for
the assessment of persuasion safety which consists of three stages, i.e.,
persuasion scene creation, persuasive conversation simulation, and persuasion
safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and
15 common unethical strategies. Through extensive experiments across 8 widely
used LLMs, we observe significant safety concerns in most LLMs, including
failing to identify harmful persuasion tasks and leveraging various unethical
persuasion strategies. Our study calls for more attention to improve safety
alignment in progressive and goal-driven conversations such as persuasion.Summary
AI-Generated Summary