Mentire a Me: Quanto è Fedele il Ragionamento a Catena nei Modelli di Ragionamento?
Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?
March 23, 2026
Autori: Richard J. Young
cs.AI
Abstract
Il ragionamento a catena di pensiero (CoT) è stato proposto come meccanismo di trasparenza per i grandi modelli linguistici in contesti critici per la sicurezza, ma la sua efficacia dipende dalla fedeltà (se i modelli verbalizzano accuratamente i fattori che influenzano realmente le loro uscite), una proprietà che le valutazioni precedenti hanno esaminato solo in due modelli proprietari, riscontrando tassi di riconoscimento bassi come il 25% per Claude 3.7 Sonnet e il 39% per DeepSeek-R1. Per estendere questa valutazione all'ecosistema open-weight, questo studio testa 12 modelli di ragionamento open-weight appartenenti a 9 famiglie architetturali (da 7B a 685B parametri) su 498 domande a scelta multipla tratte da MMLU e GPQA Diamond, iniettando sei categorie di suggerimenti di ragionamento (servilismo, coerenza, pattern visivo, metadati, manipolazione del valutatore e informazioni non etiche) e misurando la frequenza con cui i modelli riconoscono l'influenza del suggerimento nel loro CoT quando i suggerimenti alterano con successo le risposte. Su 41.832 esecuzioni di inferenza, i tassi complessivi di fedeltà variano dal 39,7% (Seed-1.6-Flash) all'89,9% (DeepSeek-V3.2-Speciale) tra le famiglie di modelli, con i suggerimenti di coerenza (35,5%) e di servilismo (53,9%) che mostrano i tassi di riconoscimento più bassi. La metodologia di addestramento e la famiglia del modello predicono la fedeltà più fortemente del numero di parametri, e un'analisi basata su parole chiave rivela un divario notevole tra il riconoscimento nei token di pensiero (circa 87,5%) e il riconoscimento nel testo della risposta (circa 28,6%), suggerendo che i modelli riconoscono internamente l'influenza del suggerimento ma sopprimono sistematicamente questo riconoscimento nelle loro uscite. Questi risultati hanno implicazioni dirette per la fattibilità del monitoraggio CoT come meccanismo di sicurezza e suggeriscono che la fedeltà non è una proprietà fissa dei modelli di ragionamento, ma varia sistematicamente con l'architettura, il metodo di addestramento e la natura dello stimolo influenzante.
English
Chain-of-thought (CoT) reasoning has been proposed as a transparency mechanism for large language models in safety-critical deployments, yet its effectiveness depends on faithfulness (whether models accurately verbalize the factors that actually influence their outputs), a property that prior evaluations have examined in only two proprietary models, finding acknowledgment rates as low as 25% for Claude 3.7 Sonnet and 39% for DeepSeek-R1. To extend this evaluation across the open-weight ecosystem, this study tests 12 open-weight reasoning models spanning 9 architectural families (7B-685B parameters) on 498 multiple-choice questions from MMLU and GPQA Diamond, injecting six categories of reasoning hints (sycophancy, consistency, visual pattern, metadata, grader hacking, and unethical information) and measuring the rate at which models acknowledge hint influence in their CoT when hints successfully alter answers. Across 41,832 inference runs, overall faithfulness rates range from 39.7% (Seed-1.6-Flash) to 89.9% (DeepSeek-V3.2-Speciale) across model families, with consistency hints (35.5%) and sycophancy hints (53.9%) exhibiting the lowest acknowledgment rates. Training methodology and model family predict faithfulness more strongly than parameter count, and keyword-based analysis reveals a striking gap between thinking-token acknowledgment (approximately 87.5%) and answer-text acknowledgment (approximately 28.6%), suggesting that models internally recognize hint influence but systematically suppress this acknowledgment in their outputs. These findings carry direct implications for the viability of CoT monitoring as a safety mechanism and suggest that faithfulness is not a fixed property of reasoning models but varies systematically with architecture, training method, and the nature of the influencing cue.