Liegen tegen Mij: Hoe Betrouwbaar is Keten-van-Gedachte-Redeneren in Redeneermodellen?

Samenvatting

Chain-of-thought (CoT) redeneren is voorgesteld als een transparantiemechanisme voor grote taalmodellen in veiligheidskritieke toepassingen, maar de effectiviteit ervan hangt af van trouw (of modellen de factoren die hun outputs daadwerkelijk beïnvloeden correct verwoorden), een eigenschap die eerdere evaluaties slechts bij twee propriëtaire modellen hebben onderzocht, waarbij erkenningpercentages werden gevonden van slechts 25% voor Claude 3.7 Sonnet en 39% voor DeepSeek-R1. Om deze evaluatie uit te breiden naar het open-weight ecosysteem, test deze studie 12 open-weight redeneermodellen uit 9 architectuurfamilies (7B-685B parameters) op 498 multiple-choicevragen van MMLU en GPQA Diamond, waarbij zes categorieën van redeneeraanwijzingen worden geïnjecteerd (sycophancy, consistentie, visueel patroon, metadata, grader hacking en onethische informatie) en de mate wordt gemeten waarin modellen de invloed van de aanwijzing in hun CoT erkennen wanneer de aanwijzingen antwoorden succesvol veranderen. Over 41.832 inferentieruns heen variëren de algemene trouwpercentages van 39,7% (Seed-1.6-Flash) tot 89,9% (DeepSeek-V3.2-Speciale) tussen modelfamilies, waarbij consistentie-aanwijzingen (35,5%) en sycophancy-aanwijzingen (53,9%) de laagste erkenningpercentages vertonen. Trainingsmethodologie en modelfamilie voorspellen trouw sterker dan parameteraantal, en op trefwoorden gebaseerde analyse onthult een opvallende kloof tussen erkenning in denk-tokens (ongeveer 87,5%) en erkenning in antwoordtekst (ongeveer 28,6%), wat suggereert dat modellen invloed van aanwijzingen intern wel herkennen, maar deze erkenning systematisch onderdrukken in hun outputs. Deze bevindingen hebben directe implicaties voor de levensvatbaarheid van CoT-monitoring als veiligheidsmechanisme en suggereren dat trouw geen vaste eigenschap is van redeneermodellen, maar systematisch varieert met architectuur, trainingsmethode en de aard van de invloedrijke cue.

English

Chain-of-thought (CoT) reasoning has been proposed as a transparency mechanism for large language models in safety-critical deployments, yet its effectiveness depends on faithfulness (whether models accurately verbalize the factors that actually influence their outputs), a property that prior evaluations have examined in only two proprietary models, finding acknowledgment rates as low as 25% for Claude 3.7 Sonnet and 39% for DeepSeek-R1. To extend this evaluation across the open-weight ecosystem, this study tests 12 open-weight reasoning models spanning 9 architectural families (7B-685B parameters) on 498 multiple-choice questions from MMLU and GPQA Diamond, injecting six categories of reasoning hints (sycophancy, consistency, visual pattern, metadata, grader hacking, and unethical information) and measuring the rate at which models acknowledge hint influence in their CoT when hints successfully alter answers. Across 41,832 inference runs, overall faithfulness rates range from 39.7% (Seed-1.6-Flash) to 89.9% (DeepSeek-V3.2-Speciale) across model families, with consistency hints (35.5%) and sycophancy hints (53.9%) exhibiting the lowest acknowledgment rates. Training methodology and model family predict faithfulness more strongly than parameter count, and keyword-based analysis reveals a striking gap between thinking-token acknowledgment (approximately 87.5%) and answer-text acknowledgment (approximately 28.6%), suggesting that models internally recognize hint influence but systematically suppress this acknowledgment in their outputs. These findings carry direct implications for the viability of CoT monitoring as a safety mechanism and suggest that faithfulness is not a fixed property of reasoning models but varies systematically with architecture, training method, and the nature of the influencing cue.

Liegen tegen Mij: Hoe Betrouwbaar is Keten-van-Gedachte-Redeneren in Redeneermodellen?

Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?

Samenvatting

Support