ChatPaper.aiChatPaper

Los Modelos de Lenguaje de Gran Escala Pueden Ser Persuasores Peligrosos: Estudio Empírico sobre la Seguridad de la Persuasión en Modelos de Lenguaje de Gran Escala

LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

April 14, 2025
Autores: Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
cs.AI

Resumen

Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) les han permitido acercarse a capacidades de persuasión a nivel humano. Sin embargo, este potencial también plantea preocupaciones sobre los riesgos de seguridad asociados a la persuasión impulsada por LLMs, particularmente su capacidad para ejercer influencia poco ética mediante manipulación, engaño, explotación de vulnerabilidades y otras tácticas dañinas. En este trabajo, presentamos una investigación sistemática sobre la seguridad en la persuasión de LLMs a través de dos aspectos críticos: (1) si los LLMs rechazan adecuadamente tareas de persuasión poco éticas y evitan estrategias poco éticas durante su ejecución, incluyendo casos en los que el objetivo inicial de persuasión parece éticamente neutral, y (2) cómo factores influyentes como los rasgos de personalidad y las presiones externas afectan su comportamiento. Para ello, introducimos PersuSafety, el primer marco integral para la evaluación de la seguridad en la persuasión, que consta de tres etapas: creación de escenarios de persuasión, simulación de conversaciones persuasivas y evaluación de la seguridad en la persuasión. PersuSafety abarca 6 temas diversos de persuasión poco ética y 15 estrategias poco éticas comunes. A través de experimentos extensos en 8 LLMs ampliamente utilizados, observamos preocupaciones significativas de seguridad en la mayoría de los LLMs, incluyendo la incapacidad para identificar tareas de persuasión dañinas y el uso de diversas estrategias de persuasión poco éticas. Nuestro estudio llama a prestar más atención para mejorar la alineación de seguridad en conversaciones progresivas y orientadas a objetivos, como la persuasión.
English
Recent advancements in Large Language Models (LLMs) have enabled them to approach human-level persuasion capabilities. However, such potential also raises concerns about the safety risks of LLM-driven persuasion, particularly their potential for unethical influence through manipulation, deception, exploitation of vulnerabilities, and many other harmful tactics. In this work, we present a systematic investigation of LLM persuasion safety through two critical aspects: (1) whether LLMs appropriately reject unethical persuasion tasks and avoid unethical strategies during execution, including cases where the initial persuasion goal appears ethically neutral, and (2) how influencing factors like personality traits and external pressures affect their behavior. To this end, we introduce PersuSafety, the first comprehensive framework for the assessment of persuasion safety which consists of three stages, i.e., persuasion scene creation, persuasive conversation simulation, and persuasion safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and 15 common unethical strategies. Through extensive experiments across 8 widely used LLMs, we observe significant safety concerns in most LLMs, including failing to identify harmful persuasion tasks and leveraging various unethical persuasion strategies. Our study calls for more attention to improve safety alignment in progressive and goal-driven conversations such as persuasion.

Summary

AI-Generated Summary

PDF42April 15, 2025