LLM können gefährliche Überzeuger sein: Empirische Studie zur Überzeugungssicherheit in großen Sprachmodellen
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models
April 14, 2025
Autoren: Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Large Language Models (LLMs) haben es ihnen ermöglicht, menschenähnliche Überzeugungsfähigkeiten zu erreichen. Dieses Potenzial wirft jedoch auch Bedenken hinsichtlich der Sicherheitsrisiken von LLM-gesteuerter Überzeugung auf, insbesondere ihre Fähigkeit zu unethischem Einfluss durch Manipulation, Täuschung, Ausnutzung von Schwachstellen und vielen anderen schädlichen Taktiken. In dieser Arbeit präsentieren wir eine systematische Untersuchung der Sicherheit von LLM-Überzeugung anhand zweier kritischer Aspekte: (1) ob LLMs unethische Überzeugungsaufgaben angemessen ablehnen und unethische Strategien während der Ausführung vermeiden, einschließlich Fällen, in denen das ursprüngliche Überzeugungsziel ethisch neutral erscheint, und (2) wie Einflussfaktoren wie Persönlichkeitsmerkmale und externer Druck ihr Verhalten beeinflussen. Zu diesem Zweck führen wir PersuSafety ein, den ersten umfassenden Rahmen zur Bewertung der Überzeugungssicherheit, der aus drei Phasen besteht: Erstellung von Überzeugungsszenarien, Simulation überzeugender Gespräche und Bewertung der Überzeugungssicherheit. PersuSafety deckt 6 verschiedene unethische Überzeugungsthemen und 15 gängige unethische Strategien ab. Durch umfangreiche Experimente mit 8 weit verbreiteten LLMs beobachten wir erhebliche Sicherheitsbedenken bei den meisten LLMs, einschließlich des Versagens, schädliche Überzeugungsaufgaben zu erkennen, und der Nutzung verschiedener unethischer Überzeugungsstrategien. Unsere Studie fordert mehr Aufmerksamkeit für die Verbesserung der Sicherheitsausrichtung in fortschrittlichen und zielgerichteten Gesprächen wie Überzeugungsversuchen.
English
Recent advancements in Large Language Models (LLMs) have enabled them to
approach human-level persuasion capabilities. However, such potential also
raises concerns about the safety risks of LLM-driven persuasion, particularly
their potential for unethical influence through manipulation, deception,
exploitation of vulnerabilities, and many other harmful tactics. In this work,
we present a systematic investigation of LLM persuasion safety through two
critical aspects: (1) whether LLMs appropriately reject unethical persuasion
tasks and avoid unethical strategies during execution, including cases where
the initial persuasion goal appears ethically neutral, and (2) how influencing
factors like personality traits and external pressures affect their behavior.
To this end, we introduce PersuSafety, the first comprehensive framework for
the assessment of persuasion safety which consists of three stages, i.e.,
persuasion scene creation, persuasive conversation simulation, and persuasion
safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and
15 common unethical strategies. Through extensive experiments across 8 widely
used LLMs, we observe significant safety concerns in most LLMs, including
failing to identify harmful persuasion tasks and leveraging various unethical
persuasion strategies. Our study calls for more attention to improve safety
alignment in progressive and goal-driven conversations such as persuasion.Summary
AI-Generated Summary