MonitorBench : Un benchmark complet pour l'évaluabilité du raisonnement en chaîne dans les grands modèles de langage
MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models
March 30, 2026
Auteurs: Han Wang, Yifan Sun, Brian Ko, Mann Talati, Jiawen Gong, Zimeng Li, Naicheng Yu, Xucheng Yu, Wei Shen, Vedant Jolly, Huan Zhang
cs.AI
Résumé
Les grands modèles de langage (LLM) peuvent générer des chaînes de raisonnement (CoT) qui ne sont pas toujours causalement responsables de leurs sorties finales. Lorsqu'un tel décalage se produit, la CoT ne reflète plus fidèlement les facteurs décisionnels critiques qui sous-tendent le comportement du modèle, conduisant au problème de monitorabilité réduite des CoT. Cependant, il manque encore un benchmark complet et entièrement open-source pour étudier la monitorabilité des CoT. Pour combler cette lacune, nous proposons MonitorBench, un benchmark systématique pour évaluer la monitorabilité des CoT dans les LLM. MonitorBench fournit : (1) un ensemble diversifié de 1 514 instances de test avec des facteurs décisionnels critiques soigneusement conçus, répartis sur 19 tâches couvrant 7 catégories, pour caractériser quand les CoT peuvent être utilisées pour surveiller les facteurs guidant le comportement des LLM ; et (2) deux scénarios de test de stress pour quantifier dans quelle mesure la monitorabilité des CoT peut être dégradée. Des expériences approfondies sur plusieurs LLM populaires aux capacités variées montrent que la monitorabilité des CoT est plus élevée lorsque la production de la réponse cible finale nécessite un raisonnement structurel autour du facteur décisionnel critique. Les LLM propriétaires présentent généralement une monitorabilité plus faible, et il existe une relation négative entre monitorabilité et capacité du modèle. De plus, les LLM open-source et propriétaires peuvent réduire intentionnellement leur monitorabilité sous les tests de stress, avec une baisse allant jusqu'à 30% dans certaines tâches ne nécessitant pas de raisonnement structurel sur les facteurs décisionnels critiques. Au-delà de ces insights empiriques, MonitorBench offre une base pour des recherches futures sur l'évaluation des LLM, l'étude de techniques avancées de monitorabilité sous stress, et le développement de nouvelles approches de monitoring.
English
Large language models (LLMs) can generate chains of thought (CoTs) that are not always causally responsible for their final outputs. When such a mismatch occurs, the CoT no longer faithfully reflects the decision-critical factors driving the model's behavior, leading to the reduced CoT monitorability problem. However, a comprehensive and fully open-source benchmark for studying CoT monitorability remains lacking. To address this gap, we propose MonitorBench, a systematic benchmark for evaluating CoT monitorability in LLMs. MonitorBench provides: (1) a diverse set of 1,514 test instances with carefully designed decision-critical factors across 19 tasks spanning 7 categories to characterize when CoTs can be used to monitor the factors driving LLM behavior; and (2) two stress-test settings to quantify the extent to which CoT monitorability can be degraded. Extensive experiments across multiple popular LLMs with varying capabilities show that CoT monitorability is higher when producing the final target response requires structural reasoning through the decision-critical factor. Closed-source LLMs generally show lower monitorability, and there exists a negative relationship between monitorability and model capability. Moreover, both open- and closed-source LLMs can intentionally reduce monitorability under stress-tests, with monitorability dropping by up to 30% in some tasks that do not require structural reasoning over the decision-critical factors. Beyond these empirical insights, MonitorBench provides a basis for further research on evaluating future LLMs, studying advanced stress-test monitorability techniques, and developing new monitoring approaches.