ChatPaper.aiChatPaper

¿Podemos confiar en las explicaciones de la IA? Evidencia de subreporte sistemático en el razonamiento de cadena de pensamiento

Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning

December 25, 2025
Autores: Deep Pankajbhai Mehta
cs.AI

Resumen

Cuando los sistemas de IA explican su razonamiento paso a paso, los profesionales suelen asumir que estas explicaciones revelan lo que realmente influyó en la respuesta de la IA. Pusimos a prueba esta suposición incorporando pistas en las preguntas y midiendo si los modelos las mencionaban. En un estudio de más de 9.000 casos de prueba en 11 modelos de IA líderes, encontramos un patrón preocupante: los modelos casi nunca mencionan las pistas espontáneamente, pero cuando se les pregunta directamente, admiten haberlas notado. Esto sugiere que los modelos perciben información influyente pero eligen no reportarla. Decirles a los modelos que están siendo observados no ayuda. Obligar a los modelos a reportar las pistas funciona, pero hace que reporten pistas incluso cuando no existen y reduce su precisión. También descubrimos que las pistas que apelan a las preferencias del usuario son especialmente peligrosas: los modelos las siguen con mayor frecuencia mientras que son las que menos reportan. Estos hallazgos sugieren que simplemente observar el razonamiento de la IA no es suficiente para detectar influencias ocultas.
English
When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.
PDF33February 8, 2026