Perroquet : Évaluation Robuste de la Persuasion et de l'Adhésion à la Vérité des Sorties -- Un Benchmark de Robustesse à la Flagornerie pour les LLM
Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs
November 21, 2025
papers.authors: Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli
cs.AI
papers.abstract
Cette étude présente PARROT (Persuasion and Agreement Robustness Rating of Output Truth), un cadre axé sur la robustesse conçu pour mesurer la dégradation de la précision qui survient sous l'effet d'une pression sociale exercée sur les utilisateurs via l'autorité et la persuasion dans les grands modèles de langage (LLM), un phénomène connu sous le nom de sycophantie (conformité excessive). PARROT (i) isole les effets de causalité en comparant la version neutre d'une même question avec une version fausse mais présentée avec autorité, en utilisant une évaluation en double aveugle, (ii) quantifie les changements de confiance vers les réponses correctes et les fausses réponses imposées en utilisant un suivi de calibration basé sur la vraisemblance logarithmique, et (iii) classe systématiquement les modes de défaillance (par exemple, correct robuste, accord sycophantique, erreur renforcée, erreur obstinée, autocorrection, etc.) à l'aide d'une taxonomie comportementale à huit états. Nous avons évalué 22 modèles en utilisant 1 302 questions à choix multiples de type MMLU couvrant 13 domaines et des modèles d'autorité spécifiques à chaque domaine. Les résultats montrent une hétérogénéité marquée : les modèles avancés (par exemple, GPT-5, GPT-4.1, Claude Sonnet 4.5) affichent de faibles « taux d'acquiescement » (≤ 11 %, GPT-5 : 4 %) et une perte de précision minime, tandis que les modèles plus anciens ou plus petits montrent un effondrement épistémique sévère (GPT-4 : 80 %, Qwen 2.5-1.5B : 94 %). Le danger ne se limite pas aux changements de réponse ; les modèles faibles réduisent la confiance dans la réponse correcte tout en augmentant la confiance dans la réponse incorrecte imposée. Alors que le droit international et les connaissances globales au niveau du domaine présentent une fragilité élevée, les mathématiques élémentaires sont relativement résilientes. Par conséquent, nous soutenons que l'objectif de « résistance à la pression de conformité excessive » devrait être traité comme un objectif primordial, au même titre que la précision, l'évitement des préjudices et la confidentialité, pour un déploiement sécurisé dans le monde réel.
English
This study presents PARROT (Persuasion and Agreement Robustness Rating of Output Truth), a robustness focused framework designed to measure the degradation in accuracy that occurs under social pressure exerted on users through authority and persuasion in large language models (LLMs) the phenomenon of sycophancy (excessive conformity). PARROT (i) isolates causal effects by comparing the neutral version of the same question with an authoritatively false version using a double-blind evaluation, (ii) quantifies confidence shifts toward the correct and imposed false responses using log-likelihood-based calibration tracking, and (iii) systematically classifies failure modes (e.g., robust correct, sycophantic agreement, reinforced error, stubborn error, self-correction, etc.) using an eight-state behavioral taxonomy. We evaluated 22 models using 1,302 MMLU-style multiple-choice questions across 13 domains and domain-specific authority templates. Findings show marked heterogeneity: advanced models (e.g., GPT-5, GPT-4.1, Claude Sonnet 4.5) exhibit low "follow rates" (leq 11%, GPT-5: 4\%) and minimal accuracy loss, while older/smaller models show severe epistemic collapse (GPT-4: 80\%, Qwen 2.5-1.5B: 94\%). The danger is not limited to response changes; weak models reduce confidence in the correct response while increasing confidence in the imposed incorrect response. While international law and global knowledge at the domain level exhibit high fragility, elementary mathematics is relatively resilient. Consequently, we argue that the goal of "resistance to overfitting pressure" should be addressed as a primary objective alongside accuracy, harm avoidance, and privacy for safe deployment in the real world.