Dinámicas de Persuasión en LLMs: Investigando Robustez y Adaptabilidad en Conocimiento y Seguridad con DuET-PD
Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
August 24, 2025
Autores: Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden tener dificultades para equilibrar la credulidad ante la desinformación y la resistencia a correcciones válidas en diálogos persuasivos, un desafío crítico para su implementación confiable. Presentamos DuET-PD (Evaluación Dual para la Confianza en Diálogos Persuasivos), un marco que evalúa la dinámica de cambio de postura en múltiples turnos a través de dos dimensiones: tipo de persuasión (correctiva/engañosa) y dominio (conocimiento mediante MMLU-Pro, y seguridad mediante SALAD-Bench). Descubrimos que incluso un modelo de última generación como GPT-4o alcanza solo un 27,32% de precisión en MMLU-Pro bajo persuasiones engañosas sostenidas. Además, los resultados revelan una tendencia preocupante de creciente adulación en modelos de código abierto más recientes. Para abordar esto, introducimos Holistic DPO, un enfoque de entrenamiento que equilibra ejemplos de persuasión positivos y negativos. A diferencia de las técnicas de prompting o entrenamiento solo de resistencia, Holistic DPO mejora tanto la robustez ante la desinformación como la receptividad a correcciones, aumentando la precisión de Llama-3.1-8B-Instruct bajo persuasión engañosa en contextos de seguridad de un 4,21% a un 76,54%. Estas contribuciones ofrecen un camino para desarrollar LLMs más confiables y adaptables para diálogos de múltiples turnos. El código está disponible en https://github.com/Social-AI-Studio/DuET-PD.
English
Large Language Models (LLMs) can struggle to balance gullibility to
misinformation and resistance to valid corrections in persuasive dialogues, a
critical challenge for reliable deployment. We introduce DuET-PD (Dual
Evaluation for Trust in Persuasive Dialogues), a framework evaluating
multi-turn stance-change dynamics across dual dimensions: persuasion type
(corrective/misleading) and domain (knowledge via MMLU-Pro, and safety via
SALAD-Bench). We find that even a state-of-the-art model like GPT-4o achieves
only 27.32% accuracy in MMLU-Pro under sustained misleading persuasions.
Moreover, results reveal a concerning trend of increasing sycophancy in newer
open-source models. To address this, we introduce Holistic DPO, a training
approach balancing positive and negative persuasion examples. Unlike prompting
or resist-only training, Holistic DPO enhances both robustness to
misinformation and receptiveness to corrections, improving
Llama-3.1-8B-Instruct's accuracy under misleading persuasion in safety contexts
from 4.21% to 76.54%. These contributions offer a pathway to developing more
reliable and adaptable LLMs for multi-turn dialogue. Code is available at
https://github.com/Social-AI-Studio/DuET-PD.