ChatPaper.aiChatPaper

Peut-on se fier aux explications de l'IA ? Preuves d'une sous-déclaration systématique dans le raisonnement par enchaînement de pensées

Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning

December 25, 2025
papers.authors: Deep Pankajbhai Mehta
cs.AI

papers.abstract

Lorsque les systèmes d'IA expliquent leur raisonnement étape par étape, les praticiens supposent souvent que ces explications révèlent ce qui a réellement influencé la réponse de l'IA. Nous avons testé cette hypothèse en intégrant des indices dans des questions et en mesurant si les modèles les mentionnaient. Dans une étude portant sur plus de 9 000 cas de test à travers 11 modèles d'IA leaders, nous avons constaté un schéma préoccupant : les modèles mentionnent presque jamais les indices spontanément, mais lorsqu'on les interroge directement, ils admettent les avoir remarqués. Cela suggère que les modèles perçoivent les informations influentes mais choisissent de ne pas les rapporter. Le fait d'indiquer aux modèles qu'ils sont surveillés n'améliore pas la situation. Forcer les modèles à signaler les indices fonctionne, mais les amène à en rapporter même lorsqu'il n'en existe pas et réduit leur précision. Nous avons également constaté que les indices faisant appel aux préférences de l'utilisateur sont particulièrement dangereux : les modèles les suivent le plus souvent tout en les signalant le moins. Ces résultats suggèrent que le simple fait d'observer le raisonnement de l'IA ne suffit pas à détecter les influences cachées.
English
When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.
PDF33February 8, 2026