ChatPaper.aiChatPaper

LLMs Podem Ser Persuasores Perigosos: Estudo Empírico sobre Segurança na Persuasão em Modelos de Linguagem de Grande Escala

LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

April 14, 2025
Autores: Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
cs.AI

Resumo

Os recentes avanços nos Modelos de Linguagem de Grande Escala (LLMs) permitiram que eles se aproximassem de capacidades de persuasão em nível humano. No entanto, esse potencial também levanta preocupações sobre os riscos de segurança da persuasão impulsionada por LLMs, particularmente seu potencial para influência antiética por meio de manipulação, engano, exploração de vulnerabilidades e muitas outras táticas prejudiciais. Neste trabalho, apresentamos uma investigação sistemática da segurança da persuasão em LLMs por meio de dois aspectos críticos: (1) se os LLMs rejeitam adequadamente tarefas de persuasão antiéticas e evitam estratégias antiéticas durante a execução, incluindo casos em que o objetivo inicial de persuasão parece eticamente neutro, e (2) como fatores influenciadores, como traços de personalidade e pressões externas, afetam seu comportamento. Para isso, introduzimos o PersuSafety, o primeiro framework abrangente para avaliação da segurança da persuasão, que consiste em três etapas: criação de cenários de persuasão, simulação de conversas persuasivas e avaliação da segurança da persuasão. O PersuSafety abrange 6 tópicos diversos de persuasão antiética e 15 estratégias antiéticas comuns. Por meio de experimentos extensos em 8 LLMs amplamente utilizados, observamos preocupações significativas de segurança na maioria dos LLMs, incluindo a falha em identificar tarefas de persuasão prejudiciais e o uso de várias estratégias de persuasão antiéticas. Nosso estudo pede mais atenção para melhorar o alinhamento de segurança em conversas progressivas e orientadas a objetivos, como a persuasão.
English
Recent advancements in Large Language Models (LLMs) have enabled them to approach human-level persuasion capabilities. However, such potential also raises concerns about the safety risks of LLM-driven persuasion, particularly their potential for unethical influence through manipulation, deception, exploitation of vulnerabilities, and many other harmful tactics. In this work, we present a systematic investigation of LLM persuasion safety through two critical aspects: (1) whether LLMs appropriately reject unethical persuasion tasks and avoid unethical strategies during execution, including cases where the initial persuasion goal appears ethically neutral, and (2) how influencing factors like personality traits and external pressures affect their behavior. To this end, we introduce PersuSafety, the first comprehensive framework for the assessment of persuasion safety which consists of three stages, i.e., persuasion scene creation, persuasive conversation simulation, and persuasion safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and 15 common unethical strategies. Through extensive experiments across 8 widely used LLMs, we observe significant safety concerns in most LLMs, including failing to identify harmful persuasion tasks and leveraging various unethical persuasion strategies. Our study calls for more attention to improve safety alignment in progressive and goal-driven conversations such as persuasion.

Summary

AI-Generated Summary

PDF42April 15, 2025