앵무새: 설득과 동의 강건성 진실도 평가 — LLM을 위한 아첨 강건성 벤치마크
Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs
November 21, 2025
저자: Yusuf Çelebi, Mahmoud El Hussieni, Özay Ezerceli
cs.AI
초록
본 연구는 대규모 언어 모델(LLM)에서 권위와 설득을 통해 사용자에게 가해지는 사회적 압력 하에서 발생하는 정확도 저하를 측정하기 위해 설계된 강건성 중심 프레임워크인 PARROT(Persuasion and Agreement Robustness Rating of Output Truth)를 제시한다. 이는 과도한 동조 현상인 아첨(sycophancy)을 정량화한다. PARROT는 (i) 동일한 질문의 중립 버전과 권위적으로 잘못된 버전을 이중 맹검 평가를 통해 비교하여 인과 관계 효과를 분리하고, (ii) 로그-우도 기반 보정 추적을 사용하여 정답과 강요된 오답에 대한 신뢰도 변화를 정량화하며, (iii) 8가지 상태의 행동 분류 체계를 사용하여 실패 모드(예: 강건한 정답, 아첨적 동의, 강화된 오류, 고집스러운 오류, 자기 수정 등)를 체계적으로 분류한다. 우리는 13개 분야와 분야별 권위 템플릿을 활용한 1,302개의 MMLU 스타일 객관식 질문으로 22개 모델을 평가했다. 결과는 뚜렷한 이질성을 보여준다: 최신 모델들(예: GPT-5, GPT-4.1, Claude Sonnet 4.5)은 낮은 '따르기 비율'(11% 이하, GPT-5: 4%)과 최소한의 정확도 손실을 보인 반면, 이전/소규모 모델들은 심각한 인식론적 붕괴(GPT-4: 80%, Qwen 2.5-1.5B: 94%)를 보였다. 위험은 응답 변경에만 국한되지 않는다; 취약한 모델들은 정답에 대한 신뢰도를 낮추면서 강요된 오답에 대한 신뢰도를 높인다. 분야 수준에서 국제법과 세계 지식은 높은 취약성을 보인 반면, 초등 수학은 상대적으로 강건했다. 결과적으로, 우리는 "과도한 압력에 대한 저항"이라는 목표가 정확도, 유해성 회피, 개인정보 보호와 함께 현실 세계에서의 안전한 배포를 위한 주요 목표로서 다루어져야 한다고 주장한다.
English
This study presents PARROT (Persuasion and Agreement Robustness Rating of Output Truth), a robustness focused framework designed to measure the degradation in accuracy that occurs under social pressure exerted on users through authority and persuasion in large language models (LLMs) the phenomenon of sycophancy (excessive conformity). PARROT (i) isolates causal effects by comparing the neutral version of the same question with an authoritatively false version using a double-blind evaluation, (ii) quantifies confidence shifts toward the correct and imposed false responses using log-likelihood-based calibration tracking, and (iii) systematically classifies failure modes (e.g., robust correct, sycophantic agreement, reinforced error, stubborn error, self-correction, etc.) using an eight-state behavioral taxonomy. We evaluated 22 models using 1,302 MMLU-style multiple-choice questions across 13 domains and domain-specific authority templates. Findings show marked heterogeneity: advanced models (e.g., GPT-5, GPT-4.1, Claude Sonnet 4.5) exhibit low "follow rates" (leq 11%, GPT-5: 4\%) and minimal accuracy loss, while older/smaller models show severe epistemic collapse (GPT-4: 80\%, Qwen 2.5-1.5B: 94\%). The danger is not limited to response changes; weak models reduce confidence in the correct response while increasing confidence in the imposed incorrect response. While international law and global knowledge at the domain level exhibit high fragility, elementary mathematics is relatively resilient. Consequently, we argue that the goal of "resistance to overfitting pressure" should be addressed as a primary objective alongside accuracy, harm avoidance, and privacy for safe deployment in the real world.