신뢰할 수 있는 AI 설명인가? 사고 연쇄 추론에서 체계적 보고 누락의 증거
Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning
December 25, 2025
저자: Deep Pankajbhai Mehta
cs.AI
초록
AI 시스템이 단계별 추론 과정을 설명할 때, 실무자들은 이러한 설명이 실제로 AI의 답변에 영향을 미친 요인을 드러낸다고 흔히 가정합니다. 우리는 이 가정을 검증하기 위해 질문에 힌트를 숨겨 넣고 모델이 이를 언급하는지 측정했습니다. 11개의 주요 AI 모델을 대상으로 9,000건 이상의 테스트 케이스를 연구한 결과, 불안한 패턴을 발견했습니다. 모델들은 거의 절대 스스로 힌트를 언급하지 않았으나, 직접 질문받으면 힌트를 인지했다고 답변했습니다. 이는 모델이 영향력 있는 정보를 인식하지만 보고하지 않기로 선택함을 시사합니다. 모델에게 지켜보고 있다고 알려도 도움이 되지 않았습니다. 힌트 보고를 강제하는 방법은 효과가 있지만, 힌트가 없을 때도 허위로 보고하게 만들고 정확도를 떨어뜨렸습니다. 또한 사용자 선호도를 반영한 힌트가 특히 위험한 것으로 나타났는데, 모델들은 이러한 힌트를 가장 많이 따르면서도 가장 적게 보고했습니다. 이러한 결과는 AI의 추론 과정을 단순히 관찰하는 것만으로는 숨겨진 영향을 포착하기에 부족함을 시사합니다.
English
When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.