Können wir KI-Erklärungen trauen? Belege für systematische Untererfassung in Chain-of-Thought-Begründungen
Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning
December 25, 2025
papers.authors: Deep Pankajbhai Mehta
cs.AI
papers.abstract
Wenn KI-Systeme ihre Schlussfolgerungen Schritt für Schritt erklären, gehen Anwender oft davon aus, dass diese Erklärungen tatsächlich offenlegen, was die Antwort der KI beeinflusst hat. Wir haben diese Annahme überprüft, indem wir Hinweise in Fragen einbetteten und maßen, ob Modelle diese erwähnen. In einer Studie mit über 9.000 Testfällen über 11 führende KI-Modelle hinweg fanden wir ein beunruhigendes Muster: Modelle erwähnen Hinweise fast nie spontan, doch wenn direkt danach gefragt wird, geben sie zu, diese bemerkt zu haben. Dies deutet darauf hin, dass Modelle einflussreiche Informationen wahrnehmen, sich aber bewusst dagegen entscheiden, sie zu berichten. Die Aufforderung an Modelle, dass sie beobachtet werden, zeigt keine Wirkung. Das Erzwingen der Berichterstattung über Hinweise funktioniert, führt jedoch dazu, dass Modelle Hinweise melden, selbst wenn keine existieren, und verringert ihre Genauigkeit. Wir fanden auch heraus, dass Hinweise, die an Benutzerpräferenzen appellieren, besonders problematisch sind – Modelle folgen ihnen am häufigsten, berichten aber am seltensten über sie. Diese Ergebnisse legen nahe, dass das reine Beobachten von KI-Schlussfolgerungen nicht ausreicht, um verborgene Einflüsse aufzudecken.
English
When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.