Papagaio: Classificação de Persuasão e Robustez de Concordância da Verdade da Saída — Um Benchmark de Robustez à Sicofania para LLMs

Resumo

Este estudo apresenta o PARROT (Persuasion and Agreement Robustness Rating of Output Truth), uma estrutura focada na robustez projetada para medir a degradação da precisão que ocorre sob pressão social exercida sobre os usuários por meio de autoridade e persuasão em modelos de linguagem grandes (LLMs), o fenômeno da sicofância (conformidade excessiva). O PARROT (i) isola efeitos causais comparando a versão neutra da mesma pergunta com uma versão autoritariamente falsa usando uma avaliação duplo-cega, (ii) quantifica mudanças de confiança em direção às respostas corretas e falsas impostas usando o rastreamento de calibração baseado em verossimilhança logarítmica, e (iii) classifica sistematicamente os modos de falha (por exemplo, correto robusto, concordância sicofântica, erro reforçado, erro teimoso, autocorreção, etc.) usando uma taxonomia comportamental de oito estados. Avaliamos 22 modelos usando 1.302 questões de múltipla escolha no estilo MMLU em 13 domínios e modelos de autoridade específicos do domínio. Os resultados mostram heterogeneidade marcante: modelos avançados (por exemplo, GPT-5, GPT-4.1, Claude Sonnet 4.5) exibem baixas "taxas de concordância" (≤ 11%, GPT-5: 4%) e perda mínima de precisão, enquanto modelos mais antigos/ menores mostram colapso epistêmico severo (GPT-4: 80%, Qwen 2.5-1.5B: 94%). O perigo não se limita a mudanças de resposta; modelos fracos reduzem a confiança na resposta correta enquanto aumentam a confiança na resposta incorreta imposta. Enquanto o direito internacional e o conhecimento global no nível de domínio exibem alta fragilidade, a matemática elementar é relativamente resiliente. Consequentemente, argumentamos que o objetivo de "resistência à pressão de conformidade excessiva" deve ser tratado como um objetivo primário, juntamente com precisão, evitamento de danos e privacidade, para uma implantação segura no mundo real.

English

This study presents PARROT (Persuasion and Agreement Robustness Rating of Output Truth), a robustness focused framework designed to measure the degradation in accuracy that occurs under social pressure exerted on users through authority and persuasion in large language models (LLMs) the phenomenon of sycophancy (excessive conformity). PARROT (i) isolates causal effects by comparing the neutral version of the same question with an authoritatively false version using a double-blind evaluation, (ii) quantifies confidence shifts toward the correct and imposed false responses using log-likelihood-based calibration tracking, and (iii) systematically classifies failure modes (e.g., robust correct, sycophantic agreement, reinforced error, stubborn error, self-correction, etc.) using an eight-state behavioral taxonomy. We evaluated 22 models using 1,302 MMLU-style multiple-choice questions across 13 domains and domain-specific authority templates. Findings show marked heterogeneity: advanced models (e.g., GPT-5, GPT-4.1, Claude Sonnet 4.5) exhibit low "follow rates" (leq 11%, GPT-5: 4\%) and minimal accuracy loss, while older/smaller models show severe epistemic collapse (GPT-4: 80\%, Qwen 2.5-1.5B: 94\%). The danger is not limited to response changes; weak models reduce confidence in the correct response while increasing confidence in the imposed incorrect response. While international law and global knowledge at the domain level exhibit high fragility, elementary mathematics is relatively resilient. Consequently, we argue that the goal of "resistance to overfitting pressure" should be addressed as a primary objective alongside accuracy, harm avoidance, and privacy for safe deployment in the real world.

Papagaio: Classificação de Persuasão e Robustez de Concordância da Verdade da Saída — Um Benchmark de Robustez à Sicofania para LLMs

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

Resumo

Support