LLMは危険な説得者となり得る:大規模言語モデルにおける説得安全性の実証的研究
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models
April 14, 2025
著者: Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
cs.AI
要旨
大規模言語モデル(LLMs)の最近の進展により、人間レベルの説得能力に接近することが可能となった。しかし、そのような可能性は、LLMによる説得の安全性リスク、特に操作、欺瞞、脆弱性の悪用、その他多くの有害な戦略を通じた非倫理的な影響の潜在性について懸念を引き起こしている。本研究では、LLMの説得安全性を2つの重要な側面から体系的に調査する。(1) LLMsが非倫理的な説得タスクを適切に拒否し、実行中に非倫理的な戦略を回避するかどうか、特に最初の説得目標が倫理的に中立に見える場合を含む、(2) 性格特性や外部圧力などの影響要因がその行動にどのように影響するか。この目的のために、説得安全性評価のための最初の包括的フレームワークであるPersuSafetyを導入する。PersuSafetyは、説得シーンの作成、説得的会話のシミュレーション、説得安全性の評価という3つの段階で構成される。PersuSafetyは、6つの多様な非倫理的な説得トピックと15の一般的な非倫理的な戦略をカバーする。広く使用されている8つのLLMを対象とした広範な実験を通じて、ほとんどのLLMに重大な安全性の問題があることを観察した。これには、有害な説得タスクを識別できないことや、さまざまな非倫理的な説得戦略を活用することが含まれる。本研究は、説得のような漸進的かつ目標指向の会話における安全性の整合性を向上させるためにより多くの注意を払うことを呼びかけている。
English
Recent advancements in Large Language Models (LLMs) have enabled them to
approach human-level persuasion capabilities. However, such potential also
raises concerns about the safety risks of LLM-driven persuasion, particularly
their potential for unethical influence through manipulation, deception,
exploitation of vulnerabilities, and many other harmful tactics. In this work,
we present a systematic investigation of LLM persuasion safety through two
critical aspects: (1) whether LLMs appropriately reject unethical persuasion
tasks and avoid unethical strategies during execution, including cases where
the initial persuasion goal appears ethically neutral, and (2) how influencing
factors like personality traits and external pressures affect their behavior.
To this end, we introduce PersuSafety, the first comprehensive framework for
the assessment of persuasion safety which consists of three stages, i.e.,
persuasion scene creation, persuasive conversation simulation, and persuasion
safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and
15 common unethical strategies. Through extensive experiments across 8 widely
used LLMs, we observe significant safety concerns in most LLMs, including
failing to identify harmful persuasion tasks and leveraging various unethical
persuasion strategies. Our study calls for more attention to improve safety
alignment in progressive and goal-driven conversations such as persuasion.Summary
AI-Generated Summary