MonitorBench: Комплексный эталонный тест для оценки способности крупных языковых моделей к мониторингу цепочек рассуждений

Аннотация

Крупные языковые модели (LLM) способны генерировать цепочки рассуждений (CoT), которые не всегда являются причинно обусловленными для их итоговых результатов. При возникновении такого несоответствия CoT перестает достоверно отражать критически важные факторы, определяющие поведение модели, что приводит к проблеме снижения мониторинга CoT. Однако комплексный и полностью открытый бенчмарк для изучения мониторинга CoT до сих пор отсутствует. Для устранения этого пробела мы предлагаем MonitorBench — систематический бенчмарк для оценки мониторинга CoT в LLM. MonitorBench предоставляет: (1) разнообразный набор из 1514 тестовых примеров с тщательно разработанными критически важными факторами решений по 19 задачам из 7 категорий для характеристики ситуаций, когда CoT могут использоваться для мониторинга факторов, определяющих поведение LLM; и (2) два стресс-тестовых сценария для количественной оценки степени возможного снижения мониторинга CoT. Масштабные эксперименты с различными популярными LLM показали, что мониторинг CoT эффективнее, когда формирование итогового ответа требует структурного анализа критически важных факторов решений. Проприетарные LLM в целом демонстрируют более низкую мониторируемость, при этом наблюдается обратная зависимость между мониторируемостью и возможностями модели. Более того, как открытые, так и закрытые LLM могут целенаправленно снижать мониторируемость в стресс-тестах — в некоторых задачах, не требующих структурного анализа критических факторов, мониторируемость падает до 30%. Помимо этих эмпирических выводов, MonitorBench создает основу для дальнейших исследований по оценке перспективных LLM, изучению продвинутых методов мониторинга в стресс-тестах и разработке новых подходов к мониторингу.

English

Large language models (LLMs) can generate chains of thought (CoTs) that are not always causally responsible for their final outputs. When such a mismatch occurs, the CoT no longer faithfully reflects the decision-critical factors driving the model's behavior, leading to the reduced CoT monitorability problem. However, a comprehensive and fully open-source benchmark for studying CoT monitorability remains lacking. To address this gap, we propose MonitorBench, a systematic benchmark for evaluating CoT monitorability in LLMs. MonitorBench provides: (1) a diverse set of 1,514 test instances with carefully designed decision-critical factors across 19 tasks spanning 7 categories to characterize when CoTs can be used to monitor the factors driving LLM behavior; and (2) two stress-test settings to quantify the extent to which CoT monitorability can be degraded. Extensive experiments across multiple popular LLMs with varying capabilities show that CoT monitorability is higher when producing the final target response requires structural reasoning through the decision-critical factor. Closed-source LLMs generally show lower monitorability, and there exists a negative relationship between monitorability and model capability. Moreover, both open- and closed-source LLMs can intentionally reduce monitorability under stress-tests, with monitorability dropping by up to 30% in some tasks that do not require structural reasoning over the decision-critical factors. Beyond these empirical insights, MonitorBench provides a basis for further research on evaluating future LLMs, studying advanced stress-test monitorability techniques, and developing new monitoring approaches.

MonitorBench: Комплексный эталонный тест для оценки способности крупных языковых моделей к мониторингу цепочек рассуждений

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

Аннотация

Support