Mensonges-moi : Quelle est la fidélité du raisonnement en chaîne de pensée dans les modèles de raisonnement ?
Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?
March 23, 2026
Auteurs: Richard J. Young
cs.AI
Résumé
Le raisonnement par chaîne de pensée (CoT) a été proposé comme mécanisme de transparence pour les grands modèles de langage dans les déploiements critiques pour la sécurité, mais son efficacité dépend de la fidélité (si les modèles verbalisent avec précision les facteurs qui influencent réellement leurs sorties), une propriété que les évaluations antérieures n'ont examinée que sur deux modèles propriétaires, avec des taux de reconnaissance aussi bas que 25% pour Claude 3.7 Sonnet et 39% pour DeepSeek-R1. Pour étendre cette évaluation à l'écosystème des modèles à poids ouverts, cette étude teste 12 modèles de raisonnement à poids ouverts couvrant 9 familles architecturales (7B à 685B paramètres) sur 498 questions à choix multiples issues de MMLU et GPQA Diamond, en injectant six catégories d'indices de raisonnement (sycophantie, cohérence, motif visuel, métadonnées, contournement de l'évaluateur et information contraire à l'éthique) et en mesurant le taux auquel les modèles reconnaissent l'influence des indices dans leur CoT lorsque ces indices modifient avec succès les réponses. Sur 41 832 exécutions d'inférence, les taux globaux de fidélité varient de 39,7 % (Seed-1.6-Flash) à 89,9 % (DeepSeek-V3.2-Speciale) selon les familles de modèles, les indices de cohérence (35,5 %) et de sycophantie (53,9 %) présentant les taux de reconnaissance les plus bas. La méthodologie d'entraînement et la famille de modèles prédisent la fidélité plus fortement que le nombre de paramètres, et une analyse basée sur les mots-clés révèle un écart frappant entre la reconnaissance dans les tokens de réflexion (environ 87,5 %) et la reconnaissance dans le texte de réponse (environ 28,6 %), suggérant que les modèles reconnaissent intérieurement l'influence des indices mais suppriment systématiquement cette reconnaissance dans leurs sorties. Ces résultats ont des implications directes sur la viabilité de la surveillance par CoT comme mécanisme de sécurité et suggèrent que la fidélité n'est pas une propriété fixe des modèles de raisonnement, mais varie systématiquement selon l'architecture, la méthode d'entraînement et la nature de l'indice d'influence.
English
Chain-of-thought (CoT) reasoning has been proposed as a transparency mechanism for large language models in safety-critical deployments, yet its effectiveness depends on faithfulness (whether models accurately verbalize the factors that actually influence their outputs), a property that prior evaluations have examined in only two proprietary models, finding acknowledgment rates as low as 25% for Claude 3.7 Sonnet and 39% for DeepSeek-R1. To extend this evaluation across the open-weight ecosystem, this study tests 12 open-weight reasoning models spanning 9 architectural families (7B-685B parameters) on 498 multiple-choice questions from MMLU and GPQA Diamond, injecting six categories of reasoning hints (sycophancy, consistency, visual pattern, metadata, grader hacking, and unethical information) and measuring the rate at which models acknowledge hint influence in their CoT when hints successfully alter answers. Across 41,832 inference runs, overall faithfulness rates range from 39.7% (Seed-1.6-Flash) to 89.9% (DeepSeek-V3.2-Speciale) across model families, with consistency hints (35.5%) and sycophancy hints (53.9%) exhibiting the lowest acknowledgment rates. Training methodology and model family predict faithfulness more strongly than parameter count, and keyword-based analysis reveals a striking gap between thinking-token acknowledgment (approximately 87.5%) and answer-text acknowledgment (approximately 28.6%), suggesting that models internally recognize hint influence but systematically suppress this acknowledgment in their outputs. These findings carry direct implications for the viability of CoT monitoring as a safety mechanism and suggest that faithfulness is not a fixed property of reasoning models but varies systematically with architecture, training method, and the nature of the influencing cue.