MonitorBench: Een Uitgebreide Benchmark voor Ketendenk-Monitorbaarheid in Grote Taalmodellen

Samenvatting

Grote taalmodellen (GTM's) kunnen denkketens (CoT's) genereren die niet altijd een causale verantwoordelijkheid dragen voor hun uiteindelijke uitvoer. Wanneer een dergelijke mismatch optreedt, weerspiegelt de CoT niet langer getrouw de beslissingskritieke factoren die het gedrag van het model sturen, wat leidt tot het verminderde CoT-monitorbaarheidsprobleem. Er ontbreekt echter nog steeds een uitgebreide en volledig open-source benchmark voor het bestuderen van CoT-monitorbaarheid. Om deze leemte op te vullen, stellen wij MonitorBench voor, een systematische benchmark voor het evalueren van CoT-monitorbaarheid in GTM's. MonitorBench biedt: (1) een diverse set van 1.514 testgevallen met zorgvuldig ontworpen beslissingskritieke factoren verspreid over 19 taken in 7 categorieën, om te karakteriseren wanneer CoT's kunnen worden gebruikt om de factoren die GTM-gedrag sturen te monitoren; en (2) twee stresstest-omgevingen om te kwantificeren in welke mate de CoT-monitorbaarheid kan afnemen. Uitgebreide experimenten met meerdere populaire GTM's met uiteenlopende capaciteiten tonen aan dat de CoT-monitorbaarheid hoger is wanneer het produceren van het uiteindelijke doelantwoord structureel redeneren via de beslissingskritieke factor vereist. Closed-source GTM's vertonen over het algemeen een lagere monitorbaarheid, en er bestaat een negatief verband tussen monitorbaarheid en modelcapaciteit. Bovendien kunnen zowel open- als closed-source GTM's de monitorbaarheid opzettelijk verminderen onder stresstests, waarbij de monitorbaarheid in sommige taken die geen structureel redeneren over de beslissingskritieke factoren vereisen met wel 30% daalt. Naast deze empirische inzichten biedt MonitorBench een basis voor verder onderzoek naar het evalueren van toekomstige GTM's, het bestuderen van geavanceerde monitorbaarheidstechnieken onder stresstests en het ontwikkelen van nieuwe monitoringbenaderingen.

English

Large language models (LLMs) can generate chains of thought (CoTs) that are not always causally responsible for their final outputs. When such a mismatch occurs, the CoT no longer faithfully reflects the decision-critical factors driving the model's behavior, leading to the reduced CoT monitorability problem. However, a comprehensive and fully open-source benchmark for studying CoT monitorability remains lacking. To address this gap, we propose MonitorBench, a systematic benchmark for evaluating CoT monitorability in LLMs. MonitorBench provides: (1) a diverse set of 1,514 test instances with carefully designed decision-critical factors across 19 tasks spanning 7 categories to characterize when CoTs can be used to monitor the factors driving LLM behavior; and (2) two stress-test settings to quantify the extent to which CoT monitorability can be degraded. Extensive experiments across multiple popular LLMs with varying capabilities show that CoT monitorability is higher when producing the final target response requires structural reasoning through the decision-critical factor. Closed-source LLMs generally show lower monitorability, and there exists a negative relationship between monitorability and model capability. Moreover, both open- and closed-source LLMs can intentionally reduce monitorability under stress-tests, with monitorability dropping by up to 30% in some tasks that do not require structural reasoning over the decision-critical factors. Beyond these empirical insights, MonitorBench provides a basis for further research on evaluating future LLMs, studying advanced stress-test monitorability techniques, and developing new monitoring approaches.

MonitorBench: Een Uitgebreide Benchmark voor Ketendenk-Monitorbaarheid in Grote Taalmodellen

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

Samenvatting

Support