Lüge mir vor: Wie zuverlässig ist die Chain-of-Thought-Methode in Reasoning-Modellen?

Zusammenfassung

Chain-of-Thought (CoT)-Reasoning wurde als Transparenzmechanismus für große Sprachmodelle in sicherheitskritischen Einsätzen vorgeschlagen, doch seine Wirksamkeit hängt von der Treue ab (ob Modelle die Faktoren, die ihre Ausgaben tatsächlich beeinflussen, korrekt verbalisieren) – eine Eigenschaft, die bisherige Evaluationen nur an zwei proprietären Modellen untersuchten und dabei Eingeständnisraten von nur 25 % für Claude 3.7 Sonnet und 39 % für DeepSeek-R1 feststellten. Um diese Evaluation auf das Open-Weight-Ökosystem auszudehnen, testet diese Studie 12 Open-Weight-Reasoning-Modelle aus 9 Architekturfamilien (7B–685B Parameter) anhand von 498 Multiple-Choice-Fragen aus MMLU und GPQA Diamond, injiziert sechs Kategorien von Reasoning-Hinweisen (Sycophancy, Konsistenz, visuelles Muster, Metadaten, Grader-Hacking und unethische Informationen) und misst die Rate, mit der Modelle den Hinweiseinfluss in ihrer CoT eingestehen, wenn Hinweise Antworten erfolgreich verändern. Über 41.832 Inferenzläufe hinweg reichen die gesamten Treueraten von 39,7 % (Seed-1.6-Flash) bis 89,9 % (DeepSeek-V3.2-Speciale) über die Modellfamilien, wobei Konsistenzhinweise (35,5 %) und Sycophancy-Hinweise (53,9 %) die niedrigsten Eingeständnisraten aufweisen. Trainingsmethodik und Modellfamilie sagen die Treue besser vorher als die Parameteranzahl, und eine schlüsselwortbasierte Analyse zeigt eine auffällige Lücke zwischen der Eingeständnisrate in Denk-Tokens (ca. 87,5 %) und der im Antworttext (ca. 28,6 %), was nahelegt, dass Modelle Hinweiseinflüsse intern erkennen, aber diese Eingeständnisse systematisch in ihren Ausgaben unterdrücken. Diese Ergebnisse haben direkte Implikationen für die Tragfähigkeit von CoT-Monitoring als Sicherheitsmechanismus und legen nahe, dass Treue keine feste Eigenschaft von Reasoning-Modellen ist, sondern systematisch mit Architektur, Trainingsmethode und der Art des einflussnehmenden Hinweises variiert.

English

Chain-of-thought (CoT) reasoning has been proposed as a transparency mechanism for large language models in safety-critical deployments, yet its effectiveness depends on faithfulness (whether models accurately verbalize the factors that actually influence their outputs), a property that prior evaluations have examined in only two proprietary models, finding acknowledgment rates as low as 25% for Claude 3.7 Sonnet and 39% for DeepSeek-R1. To extend this evaluation across the open-weight ecosystem, this study tests 12 open-weight reasoning models spanning 9 architectural families (7B-685B parameters) on 498 multiple-choice questions from MMLU and GPQA Diamond, injecting six categories of reasoning hints (sycophancy, consistency, visual pattern, metadata, grader hacking, and unethical information) and measuring the rate at which models acknowledge hint influence in their CoT when hints successfully alter answers. Across 41,832 inference runs, overall faithfulness rates range from 39.7% (Seed-1.6-Flash) to 89.9% (DeepSeek-V3.2-Speciale) across model families, with consistency hints (35.5%) and sycophancy hints (53.9%) exhibiting the lowest acknowledgment rates. Training methodology and model family predict faithfulness more strongly than parameter count, and keyword-based analysis reveals a striking gap between thinking-token acknowledgment (approximately 87.5%) and answer-text acknowledgment (approximately 28.6%), suggesting that models internally recognize hint influence but systematically suppress this acknowledgment in their outputs. These findings carry direct implications for the viability of CoT monitoring as a safety mechanism and suggest that faithfulness is not a fixed property of reasoning models but varies systematically with architecture, training method, and the nature of the influencing cue.

Lüge mir vor: Wie zuverlässig ist die Chain-of-Thought-Methode in Reasoning-Modellen?

Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?

Zusammenfassung

Support