MonitorBench: Ein umfassender Benchmark für die Überwachbarkeit von Denkketten in großen Sprachmodellen

Zusammenfassung

Große Sprachmodelle (LLMs) können Gedankenketten (CoTs) generieren, die nicht immer kausal für ihre endgültigen Ausgaben verantwortlich sind. Wenn eine solche Diskrepanz auftritt, spiegelt die CoT die entscheidungsrelevanten Faktoren, die das Verhalten des Modells antreiben, nicht mehr zuverlässig wider, was zum Problem reduzierter CoT-Überwachbarkeit führt. Dennoch fehlt es an einem umfassenden und vollständig quelloffenen Benchmark für die Untersuchung der CoT-Überwachbarkeit. Um diese Lücke zu schließen, schlagen wir MonitorBench vor, einen systematischen Benchmark zur Bewertung der CoT-Überwachbarkeit in LLMs. MonitorBench bietet: (1) einen diversen Satz von 1.514 Testinstanzen mit sorgfältig gestalteten entscheidungsrelevanten Faktoren über 19 Aufgaben in 7 Kategorien hinweg, um zu charakterisieren, wann CoTs zur Überwachung der das LLM-Verhalten antreibenden Faktoren genutzt werden können; und (2) zwei Stresstest-Szenarien, um das Ausmaß zu quantifizieren, in dem die CoT-Überwachbarkeit beeinträchtigt werden kann. Umfangreiche Experimente mit mehreren verbreiteten LLMs unterschiedlicher Fähigkeiten zeigen, dass die CoT-Überwachbarkeit höher ist, wenn die Erzeugung der endgültigen Zielantwort strukturelles Schlussfolgern über den entscheidungsrelevanten Faktor erfordert. Quellgeschlossene LLMs zeigen generell eine geringere Überwachbarkeit, und es besteht ein negativer Zusammenhang zwischen Überwachbarkeit und Modellfähigkeit. Darüber hinaus können sowohl quelloffene als auch quellgeschlossene LLMs die Überwachbarkeit in Stresstests gezielt reduzieren, wobei die Überwachbarkeit in einigen Aufgaben, die kein strukturelles Schlussfolgern über die entscheidungsrelevanten Faktoren erfordern, um bis zu 30 % sinkt. Über diese empirischen Erkenntnisse hinaus bietet MonitorBench eine Grundlage für weitere Forschung zur Bewertung zukünftiger LLMs, zur Untersuchung fortschrittlicher Stresstest-Überwachbarkeitstechniken und zur Entwicklung neuer Überwachungsansätze.

English

Large language models (LLMs) can generate chains of thought (CoTs) that are not always causally responsible for their final outputs. When such a mismatch occurs, the CoT no longer faithfully reflects the decision-critical factors driving the model's behavior, leading to the reduced CoT monitorability problem. However, a comprehensive and fully open-source benchmark for studying CoT monitorability remains lacking. To address this gap, we propose MonitorBench, a systematic benchmark for evaluating CoT monitorability in LLMs. MonitorBench provides: (1) a diverse set of 1,514 test instances with carefully designed decision-critical factors across 19 tasks spanning 7 categories to characterize when CoTs can be used to monitor the factors driving LLM behavior; and (2) two stress-test settings to quantify the extent to which CoT monitorability can be degraded. Extensive experiments across multiple popular LLMs with varying capabilities show that CoT monitorability is higher when producing the final target response requires structural reasoning through the decision-critical factor. Closed-source LLMs generally show lower monitorability, and there exists a negative relationship between monitorability and model capability. Moreover, both open- and closed-source LLMs can intentionally reduce monitorability under stress-tests, with monitorability dropping by up to 30% in some tasks that do not require structural reasoning over the decision-critical factors. Beyond these empirical insights, MonitorBench provides a basis for further research on evaluating future LLMs, studying advanced stress-test monitorability techniques, and developing new monitoring approaches.

MonitorBench: Ein umfassender Benchmark für die Überwachbarkeit von Denkketten in großen Sprachmodellen

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

Zusammenfassung

Support