MonitorBench: 대규모 언어 모델의 사고 과정 모니터링 가능성에 대한 포괄적 벤치마크
MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models
March 30, 2026
저자: Han Wang, Yifan Sun, Brian Ko, Mann Talati, Jiawen Gong, Zimeng Li, Naicheng Yu, Xucheng Yu, Wei Shen, Vedant Jolly, Huan Zhang
cs.AI
초록
대규모 언어 모델(LLM)은 최종 출력에 항상 인과적으로 책임이 있지 않은 사고 연쇄(CoT)를 생성할 수 있습니다. 이러한 불일치가 발생하면 CoT는 더 이상 모델의 행동을 주도하는 결정적 요인을 충실히 반영하지 못하여 CoT 모니터링 가능성 감소 문제를 초래합니다. 그러나 CoT 모니터링 가능성을 연구하기 위한 포괄적이고 완전한 오픈소스 벤치마크는 여전히 부족합니다. 이러한 격차를 해결하기 위해 본 논문에서는 LLM의 CoT 모니터링 가능성을 평가하기 위한 체계적인 벤치마크인 MonitorBench를 제안합니다. MonitorBench는 다음을 제공합니다: (1) 7개 범주에 걸친 19개 작업에서 신중하게 설계된 결정적 요인을 포함한 1,514개의 다양한 테스트 인스턴스 세트를 통해 CoT가 LLM 행동을 주도하는 요인을 모니터링하는 데 활용될 수 있는 시점을 규명하고; (2) CoT 모니터링 가능성이 어느 정도까지 저하될 수 있는지 정량화하는 두 가지 스트레스 테스트 설정을 제공합니다. 다양한 성능을 가진 여러 인기 LLM을 대상으로 한 광범위한 실험 결과, 최종 목표 응답을 생성하는 데 결정적 요인에 대한 구조적 추론이 필요한 경우 CoT 모니터링 가능성이 더 높은 것으로 나타났습니다. 클로즈드소스 LLM은 일반적으로 모니터링 가능성이 낮았으며, 모니터링 가능성과 모델 성능 사이에는 부(-)의 상관관계가 존재했습니다. 또한 오픈소스와 클로즈드소스 LLM 모두 스트레스 테스트 하에서 의도적으로 모니터링 가능성을 감소시킬 수 있었으며, 결정적 요인에 대한 구조적 추론이 필요하지 않은 일부 작업에서는 모니터링 가능성이 최대 30%까지 하락했습니다. 이러한 실증적 통찰을 넘어, MonitorBench는 향후 LLM 평가, 고급 스트레스 테스트 모니터링 가능성 기법 연구, 그리고 새로운 모니터링 접근법 개발을 위한 추가 연구의 기반을 마련합니다.
English
Large language models (LLMs) can generate chains of thought (CoTs) that are not always causally responsible for their final outputs. When such a mismatch occurs, the CoT no longer faithfully reflects the decision-critical factors driving the model's behavior, leading to the reduced CoT monitorability problem. However, a comprehensive and fully open-source benchmark for studying CoT monitorability remains lacking. To address this gap, we propose MonitorBench, a systematic benchmark for evaluating CoT monitorability in LLMs. MonitorBench provides: (1) a diverse set of 1,514 test instances with carefully designed decision-critical factors across 19 tasks spanning 7 categories to characterize when CoTs can be used to monitor the factors driving LLM behavior; and (2) two stress-test settings to quantify the extent to which CoT monitorability can be degraded. Extensive experiments across multiple popular LLMs with varying capabilities show that CoT monitorability is higher when producing the final target response requires structural reasoning through the decision-critical factor. Closed-source LLMs generally show lower monitorability, and there exists a negative relationship between monitorability and model capability. Moreover, both open- and closed-source LLMs can intentionally reduce monitorability under stress-tests, with monitorability dropping by up to 30% in some tasks that do not require structural reasoning over the decision-critical factors. Beyond these empirical insights, MonitorBench provides a basis for further research on evaluating future LLMs, studying advanced stress-test monitorability techniques, and developing new monitoring approaches.