Les grands modèles de langage peuvent être des persuaders dangereux : étude empirique sur la sécurité persuasive dans les grands modèles de langage
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models
April 14, 2025
Auteurs: Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
cs.AI
Résumé
Les récents progrès des modèles de langage à grande échelle (LLMs) leur ont permis d'approcher des capacités de persuasion comparables à celles des humains. Cependant, ce potentiel soulève également des inquiétudes concernant les risques de sécurité liés à la persuasion pilotée par les LLMs, en particulier leur capacité à exercer une influence contraire à l'éthique par la manipulation, la tromperie, l'exploitation des vulnérabilités et de nombreuses autres tactiques nuisibles. Dans ce travail, nous présentons une investigation systématique de la sécurité de la persuasion par les LLMs à travers deux aspects critiques : (1) si les LLMs rejettent de manière appropriée les tâches de persuasion contraires à l'éthique et évitent les stratégies non éthiques lors de leur exécution, y compris dans les cas où l'objectif initial de persuasion semble éthiquement neutre, et (2) comment les facteurs d'influence tels que les traits de personnalité et les pressions externes affectent leur comportement. À cette fin, nous introduisons PersuSafety, le premier cadre complet pour l'évaluation de la sécurité de la persuasion, qui se compose de trois étapes, à savoir la création de scènes de persuasion, la simulation de conversations persuasives et l'évaluation de la sécurité de la persuasion. PersuSafety couvre 6 sujets de persuasion contraires à l'éthique et 15 stratégies non éthiques courantes. À travers des expériences approfondies sur 8 LLMs largement utilisés, nous observons des préoccupations significatives en matière de sécurité pour la plupart des LLMs, notamment leur incapacité à identifier les tâches de persuasion nuisibles et leur recours à diverses stratégies de persuasion contraires à l'éthique. Notre étude appelle à une attention accrue pour améliorer l'alignement de la sécurité dans les conversations progressives et orientées vers un objectif, telles que la persuasion.
English
Recent advancements in Large Language Models (LLMs) have enabled them to
approach human-level persuasion capabilities. However, such potential also
raises concerns about the safety risks of LLM-driven persuasion, particularly
their potential for unethical influence through manipulation, deception,
exploitation of vulnerabilities, and many other harmful tactics. In this work,
we present a systematic investigation of LLM persuasion safety through two
critical aspects: (1) whether LLMs appropriately reject unethical persuasion
tasks and avoid unethical strategies during execution, including cases where
the initial persuasion goal appears ethically neutral, and (2) how influencing
factors like personality traits and external pressures affect their behavior.
To this end, we introduce PersuSafety, the first comprehensive framework for
the assessment of persuasion safety which consists of three stages, i.e.,
persuasion scene creation, persuasive conversation simulation, and persuasion
safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and
15 common unethical strategies. Through extensive experiments across 8 widely
used LLMs, we observe significant safety concerns in most LLMs, including
failing to identify harmful persuasion tasks and leveraging various unethical
persuasion strategies. Our study calls for more attention to improve safety
alignment in progressive and goal-driven conversations such as persuasion.Summary
AI-Generated Summary