MonitorBench: Un Punto de Referencia Integral para la Monitorabilidad de la Cadena de Razonamiento en Modelos de Lenguaje Grandes

Resumen

Los grandes modelos de lenguaje (LLM) pueden generar cadenas de pensamiento (CoT) que no siempre son causalmente responsables de sus salidas finales. Cuando ocurre tal discrepancia, la CoT ya no refleja fielmente los factores críticos para la decisión que impulsan el comportamiento del modelo, lo que conduce al problema de la monitorabilidad reducida de las CoT. Sin embargo, aún falta un benchmark integral y completamente de código abierto para estudiar la monitorabilidad de las CoT. Para abordar esta brecha, proponemos MonitorBench, un benchmark sistemático para evaluar la monitorabilidad de las CoT en LLM. MonitorBench proporciona: (1) un conjunto diverso de 1.514 instancias de prueba con factores críticos para la decisión cuidadosamente diseñados a través de 19 tareas que abarcan 7 categorías, para caracterizar cuándo las CoT pueden usarse para monitorizar los factores que impulsan el comportamiento de los LLM; y (2) dos configuraciones de prueba de estrés para cuantificar el grado en que la monitorabilidad de las CoT puede degradarse. Experimentos exhaustivos en múltiples LLM populares con capacidades variables muestran que la monitorabilidad de las CoT es mayor cuando producir la respuesta objetivo final requiere un razonamiento estructural a través del factor crítico para la decisión. Los LLM de código cerrado generalmente muestran una monitorabilidad más baja, y existe una relación negativa entre la monitorabilidad y la capacidad del modelo. Además, tanto los LLM de código abierto como los cerrados pueden reducir intencionalmente la monitorabilidad bajo pruebas de estrés, con una caída de hasta el 30% en algunas tareas que no requieren razonamiento estructural sobre los factores críticos para la decisión. Más allá de estas perspectivas empíricas, MonitorBench proporciona una base para futuras investigaciones sobre la evaluación de LLM futuros, el estudio de técnicas avanzadas de monitorabilidad bajo pruebas de estrés y el desarrollo de nuevos enfoques de monitorización.

English

Large language models (LLMs) can generate chains of thought (CoTs) that are not always causally responsible for their final outputs. When such a mismatch occurs, the CoT no longer faithfully reflects the decision-critical factors driving the model's behavior, leading to the reduced CoT monitorability problem. However, a comprehensive and fully open-source benchmark for studying CoT monitorability remains lacking. To address this gap, we propose MonitorBench, a systematic benchmark for evaluating CoT monitorability in LLMs. MonitorBench provides: (1) a diverse set of 1,514 test instances with carefully designed decision-critical factors across 19 tasks spanning 7 categories to characterize when CoTs can be used to monitor the factors driving LLM behavior; and (2) two stress-test settings to quantify the extent to which CoT monitorability can be degraded. Extensive experiments across multiple popular LLMs with varying capabilities show that CoT monitorability is higher when producing the final target response requires structural reasoning through the decision-critical factor. Closed-source LLMs generally show lower monitorability, and there exists a negative relationship between monitorability and model capability. Moreover, both open- and closed-source LLMs can intentionally reduce monitorability under stress-tests, with monitorability dropping by up to 30% in some tasks that do not require structural reasoning over the decision-critical factors. Beyond these empirical insights, MonitorBench provides a basis for further research on evaluating future LLMs, studying advanced stress-test monitorability techniques, and developing new monitoring approaches.

MonitorBench: Un Punto de Referencia Integral para la Monitorabilidad de la Cadena de Razonamiento en Modelos de Lenguaje Grandes

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

Resumen

Support