Dinamiche della Persuasione nei LLM: Indagine su Robustezza e Adattabilità nella Conoscenza e Sicurezza con DuET-PD
Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
August 24, 2025
Autori: Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) possono avere difficoltà a bilanciare la credulità verso la disinformazione e la resistenza a correzioni valide nei dialoghi persuasivi, una sfida cruciale per un impiego affidabile. Introduciamo DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues), un framework che valuta le dinamiche di cambiamento di posizione in dialoghi multi-turn lungo due dimensioni: tipo di persuasione (correttiva/ingannevole) e dominio (conoscenza tramite MMLU-Pro, e sicurezza tramite SALAD-Bench). Scopriamo che anche un modello all'avanguardia come GPT-4o raggiunge solo il 27,32% di accuratezza in MMLU-Pro sotto una persuasione ingannevole prolungata. Inoltre, i risultati rivelano una tendenza preoccupante verso una crescente sìcophancy nei modelli open-source più recenti. Per affrontare questo problema, introduciamo Holistic DPO, un approccio di addestramento che bilancia esempi di persuasione positivi e negativi. A differenza del prompting o dell'addestramento solo alla resistenza, Holistic DPO migliora sia la robustezza alla disinformazione che la ricettività alle correzioni, aumentando l'accuratezza di Llama-3.1-8B-Instruct sotto persuasione ingannevole in contesti di sicurezza dal 4,21% al 76,54%. Questi contributi offrono una via per sviluppare LLM più affidabili e adattabili per dialoghi multi-turn. Il codice è disponibile all'indirizzo https://github.com/Social-AI-Studio/DuET-PD.
English
Large Language Models (LLMs) can struggle to balance gullibility to
misinformation and resistance to valid corrections in persuasive dialogues, a
critical challenge for reliable deployment. We introduce DuET-PD (Dual
Evaluation for Trust in Persuasive Dialogues), a framework evaluating
multi-turn stance-change dynamics across dual dimensions: persuasion type
(corrective/misleading) and domain (knowledge via MMLU-Pro, and safety via
SALAD-Bench). We find that even a state-of-the-art model like GPT-4o achieves
only 27.32% accuracy in MMLU-Pro under sustained misleading persuasions.
Moreover, results reveal a concerning trend of increasing sycophancy in newer
open-source models. To address this, we introduce Holistic DPO, a training
approach balancing positive and negative persuasion examples. Unlike prompting
or resist-only training, Holistic DPO enhances both robustness to
misinformation and receptiveness to corrections, improving
Llama-3.1-8B-Instruct's accuracy under misleading persuasion in safety contexts
from 4.21% to 76.54%. These contributions offer a pathway to developing more
reliable and adaptable LLMs for multi-turn dialogue. Code is available at
https://github.com/Social-AI-Studio/DuET-PD.