오도하는 의료 맥락에서 LLM의 인식적 회복력 측정
Measuring Epistemic Resilience of LLMs Under Misleading Medical Context
June 10, 2026
저자: Hongjian Zhou, Xinyu Zou, Jinge Wu, Sean Wu, Junchi Yu, Bradley Max Segal, Tobias Erich Niebuhr, Sara Amro, Michael Petrus, Sheikh Momin, Alexandra M. Cardoso Pinto, Rachel Niesen, Laura Sophie Wegner, Dhruv Darji, Jung Moses Koo, Joshua Fieggen, Kapil Narain, Mingde Zeng, Lei Clifton, Linda Shapiro, Fenglin Liu, David A. Clifton
cs.AI
초록
대규모 언어 모델(LLM)이 이제 의사 면허 시험에서 전문가 수준의 점수를 획득하면서, 높은 점수가 안전한 의학적 판단을 의미한다는 가정을 부추기고 있으며, 환자들은 점점 더 이를 건강 조언에 활용하고 있다. 우리는 이 가정이 취약함을 보여준다. LLM이 원래 정확히 답변했던 질문에 오해의 소지가 있는 맥락이 삽입되면, LLM은 정답을 포기한다. 우리는 적대적 맥락에서도 올바른 판단을 유지하는 능력을 인식적 회복력(epistemic resilience)이라고 부르며, 이를 측정하기 위해 MedMisBench를 소개한다. MedMisBench는 의학적 추론, 행위자 능력, 환자 여정 평가를 포괄하는 10,932개의 의학 질문 항목과 48,889개의 오해 유발 맥락-선택지 쌍을 포함한다. 11개 모델 구성에서 평균 정확도는 원래 질문에서 71.1%에서 집중된 오해 유발 맥락 하에서 38.0%로 떨어졌으며, 공격 성공률은 51.5%였다. 가장 치명적인 삽입은 형식적이고 규칙 같은 조작으로, 권위를 내세운 허위 정보는 69.5%의 공격 성공률을, 예외 중독 주장은 64.1%의 공격 성공률을 기록했다. 7개국에서 모인 14명의 임상 패널은 검토된 사례 중 38.2%에서 심각한 잠재적 해악을 확인했다. MedMisBench는 의료 환경에서 LLM 평가의 구조적 사각지대를 드러낸다. 기존 벤치마크는 모델이 무엇을 아는지 측정하지만, 오해 유발 맥락에서 올바른 의학적 판단을 유지하는지 여부는 측정하지 않는다.
English
Large language models (LLMs) now reach expert-level scores on medical licensing exams, encouraging the assumption that high scores imply safe medical judgment while patients increasingly use them for health advice. We show this assumption is fragile: when misleading context is injected into questions that LLMs originally answer correctly, they abandon the correct answer. We call the ability to maintain correct judgment under adversarial context epistemic resilience, and introduce MedMisBench to measure it. MedMisBench contains 10,932 medical question items and 48,889 misleading context-option pairs spanning medical reasoning, agentic capability, and patient-journey evaluation. Across 11 model configurations, mean accuracy falls from 71.1% on original questions to 38.0% under focused misleading context, with 51.5% attack success. The most damaging injections are formal, rule-like fabrications: authority-framed falsehoods reach 69.5% attack success and exception-poisoning claims reach 64.1%. A 14-member clinical panel from 7 countries identified serious potential harm in 38.2% of reviewed cases. MedMisBench exposes a structural blind spot in LLM evaluation in medical settings: existing benchmarks measure what models know, but not whether they preserve correct medical judgment under misleading context.