ChatPaper.aiChatPaper

Persuasionsdynamik in LLMs: Untersuchung von Robustheit und Anpassungsfähigkeit in Wissen und Sicherheit mit DuET-PD

Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

August 24, 2025
papers.authors: Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) können Schwierigkeiten haben, die Anfälligkeit für Fehlinformationen und die Widerstandsfähigkeit gegenüber gültigen Korrekturen in überzeugenden Dialogen auszubalancieren, eine entscheidende Herausforderung für den zuverlässigen Einsatz. Wir stellen DuET-PD (Duale Evaluierung für Vertrauen in Überzeugungsdialogen) vor, ein Framework, das die Dynamik der Standpunktänderung über mehrere Dialogschritte in zwei Dimensionen bewertet: Überzeugungstyp (korrigierend/irreführend) und Domäne (Wissen via MMLU-Pro und Sicherheit via SALAD-Bench). Wir stellen fest, dass selbst ein modernstes Modell wie GPT-4o unter anhaltender irreführender Überzeugung nur eine Genauigkeit von 27,32 % in MMLU-Pro erreicht. Darüber hinaus zeigen die Ergebnisse einen besorgniserregenden Trend zunehmender Unterwürfigkeit bei neueren Open-Source-Modellen. Um dies zu adressieren, führen wir Holistic DPO ein, einen Trainingsansatz, der positive und negative Überzeugungsbeispiele ausbalanciert. Im Gegensatz zu Prompting oder reinem Widerstandstraining verbessert Holistic DPO sowohl die Robustheit gegenüber Fehlinformationen als auch die Aufgeschlossenheit gegenüber Korrekturen und steigert die Genauigkeit von Llama-3.1-8B-Instruct unter irreführender Überzeugung in Sicherheitskontexten von 4,21 % auf 76,54 %. Diese Beiträge bieten einen Weg zur Entwicklung zuverlässigerer und anpassungsfähigerer LLMs für mehrschrittige Dialoge. Der Code ist verfügbar unter https://github.com/Social-AI-Studio/DuET-PD.
English
Large Language Models (LLMs) can struggle to balance gullibility to misinformation and resistance to valid corrections in persuasive dialogues, a critical challenge for reliable deployment. We introduce DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues), a framework evaluating multi-turn stance-change dynamics across dual dimensions: persuasion type (corrective/misleading) and domain (knowledge via MMLU-Pro, and safety via SALAD-Bench). We find that even a state-of-the-art model like GPT-4o achieves only 27.32% accuracy in MMLU-Pro under sustained misleading persuasions. Moreover, results reveal a concerning trend of increasing sycophancy in newer open-source models. To address this, we introduce Holistic DPO, a training approach balancing positive and negative persuasion examples. Unlike prompting or resist-only training, Holistic DPO enhances both robustness to misinformation and receptiveness to corrections, improving Llama-3.1-8B-Instruct's accuracy under misleading persuasion in safety contexts from 4.21% to 76.54%. These contributions offer a pathway to developing more reliable and adaptable LLMs for multi-turn dialogue. Code is available at https://github.com/Social-AI-Studio/DuET-PD.
PDF82August 29, 2025