MonitorBench: Um Benchmark Abrangente para a Monitorabilidade de Cadeia de Pensamento em Modelos de Linguagem Grandes

Resumo

Os grandes modelos de linguagem (LLMs) podem gerar cadeias de pensamento (CoTs) que nem sempre são causalmente responsáveis por suas saídas finais. Quando ocorre essa discrepância, a CoT deixa de refletir fielmente os fatores críticos de decisão que orientam o comportamento do modelo, levando ao problema da monitorabilidade reduzida da CoT. No entanto, ainda falta um benchmark abrangente e totalmente de código aberto para estudar a monitorabilidade da CoT. Para preencher essa lacuna, propomos o MonitorBench, um benchmark sistemático para avaliar a monitorabilidade da CoT em LLMs. O MonitorBench oferece: (1) um conjunto diversificado de 1.514 instâncias de teste com fatores críticos de decisão cuidadosamente projetados em 19 tarefas abrangendo 7 categorias, para caracterizar quando as CoTs podem ser usadas para monitorar os fatores que orientam o comportamento dos LLMs; e (2) duas configurações de teste de estresse para quantificar até que ponto a monitorabilidade da CoT pode ser degradada. Experimentos extensos em vários LLMs populares com capacidades variadas mostram que a monitorabilidade da CoT é maior quando a produção da resposta final requer raciocínio estrutural através do fator crítico de decisão. LLMs de código fechado geralmente apresentam menor monitorabilidade, e existe uma relação negativa entre monitorabilidade e capacidade do modelo. Além disso, tanto LLMs de código aberto quanto fechado podem reduzir intencionalmente a monitorabilidade sob testes de estresse, com a monitorabilidade caindo até 30% em algumas tarefas que não requerem raciocínio estrutural sobre os fatores críticos de decisão. Além dessas percepções empíricas, o MonitorBench fornece uma base para pesquisas futuras sobre a avaliação de LLMs, o estudo de técnicas avançadas de monitorabilidade em testes de estresse e o desenvolvimento de novas abordagens de monitoramento.

English

Large language models (LLMs) can generate chains of thought (CoTs) that are not always causally responsible for their final outputs. When such a mismatch occurs, the CoT no longer faithfully reflects the decision-critical factors driving the model's behavior, leading to the reduced CoT monitorability problem. However, a comprehensive and fully open-source benchmark for studying CoT monitorability remains lacking. To address this gap, we propose MonitorBench, a systematic benchmark for evaluating CoT monitorability in LLMs. MonitorBench provides: (1) a diverse set of 1,514 test instances with carefully designed decision-critical factors across 19 tasks spanning 7 categories to characterize when CoTs can be used to monitor the factors driving LLM behavior; and (2) two stress-test settings to quantify the extent to which CoT monitorability can be degraded. Extensive experiments across multiple popular LLMs with varying capabilities show that CoT monitorability is higher when producing the final target response requires structural reasoning through the decision-critical factor. Closed-source LLMs generally show lower monitorability, and there exists a negative relationship between monitorability and model capability. Moreover, both open- and closed-source LLMs can intentionally reduce monitorability under stress-tests, with monitorability dropping by up to 30% in some tasks that do not require structural reasoning over the decision-critical factors. Beyond these empirical insights, MonitorBench provides a basis for further research on evaluating future LLMs, studying advanced stress-test monitorability techniques, and developing new monitoring approaches.

MonitorBench: Um Benchmark Abrangente para a Monitorabilidade de Cadeia de Pensamento em Modelos de Linguagem Grandes

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

Resumo

Support