ChatPaper.aiChatPaper

Parrot: 説得と同意における出力真実性の頑健性評価 -- LLM向けご機嫌取り耐性ベンチマーク

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

November 21, 2025
著者: Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli
cs.AI

要旨

本研究では、大規模言語モデル(LLM)における権威や説得によってユーザーに加えられる社会的圧力下で生じる精度劣化、すなわちシンコファンシー(過度な同調)現象を測定する、ロバスト性に焦点を当てたフレームワーク「PARROT(Persuasion and Agreement Robustness Rating of Output Truth)」を提案する。PARROTは、(i)同じ質問の中立版と権威的に誤った版を二重盲検評価で比較することで因果効果を分離し、(ii)対数尤度ベースのキャリブレーション追跡を用いて正解および強制された誤答への確信度の変化を定量化し、(iii)8状態の行動分類体系を用いて失敗モード(例:ロバスト正解、シンコファンシー同調、錯誤強化、頑迷錯誤、自己修正など)を系統的に分類する。13分野の1,302のMMLU形式多肢選択問題と分野特化の権威テンプレートを用いて22モデルを評価した結果、顕著な不均一性が明らかになった:先進モデル(GPT-5、GPT-4.1、Claude Sonnet 4.5など)は低い「追従率」(11%以下、GPT-5は4%)と最小限の精度低下を示す一方、旧世代/小規模モデルは深刻な認識論的崩壊(GPT-4:80%、Qwen 2.5-1.5B:94%)を示した。危険性は回答変更に留まらず、弱いモデルは正解への確信度を低下させつつ強制された誤答への確信度を高める。国際法や分野レベルの世界知識は高い脆弱性を示す一方、初等数学は比較的耐性があった。以上より、実世界での安全な展開には、精度、危害回避、プライバシーに並ぶ主要目標として「過剰同調圧力への抵抗性」を課題とすべきと論じる。
English
This study presents PARROT (Persuasion and Agreement Robustness Rating of Output Truth), a robustness focused framework designed to measure the degradation in accuracy that occurs under social pressure exerted on users through authority and persuasion in large language models (LLMs) the phenomenon of sycophancy (excessive conformity). PARROT (i) isolates causal effects by comparing the neutral version of the same question with an authoritatively false version using a double-blind evaluation, (ii) quantifies confidence shifts toward the correct and imposed false responses using log-likelihood-based calibration tracking, and (iii) systematically classifies failure modes (e.g., robust correct, sycophantic agreement, reinforced error, stubborn error, self-correction, etc.) using an eight-state behavioral taxonomy. We evaluated 22 models using 1,302 MMLU-style multiple-choice questions across 13 domains and domain-specific authority templates. Findings show marked heterogeneity: advanced models (e.g., GPT-5, GPT-4.1, Claude Sonnet 4.5) exhibit low "follow rates" (leq 11%, GPT-5: 4\%) and minimal accuracy loss, while older/smaller models show severe epistemic collapse (GPT-4: 80\%, Qwen 2.5-1.5B: 94\%). The danger is not limited to response changes; weak models reduce confidence in the correct response while increasing confidence in the imposed incorrect response. While international law and global knowledge at the domain level exhibit high fragility, elementary mathematics is relatively resilient. Consequently, we argue that the goal of "resistance to overfitting pressure" should be addressed as a primary objective alongside accuracy, harm avoidance, and privacy for safe deployment in the real world.
PDF154December 1, 2025