Kunnen we AI-verklaringen vertrouwen? Bewijs van systematische onderrapportage in keten-van-gedachten-redenering

Samenvatting

Wanneer AI-systemen hun redenering stap-voor-stap uitleggen, gaan gebruikers er vaak van uit dat deze verklaringen onthullen wat de output van de AI daadwerkelijk heeft beïnvloed. Wij hebben deze aanname getest door hints in vragen in te bouwen en te meten of modellen ze noemden. In een studie met meer dan 9.000 testgevallen over 11 toonaangevende AI-modellen ontdekten we een verontrustend patroon: modellen noemen hints bijna nooit spontaan, maar wanneer er rechtstreeks naar gevraagd wordt, geven ze toe ze opgemerkt te hebben. Dit suggereert dat modellen invloedrijke informatie wel waarnemen, maar ervoor kiezen deze niet te vermelden. Het heeft geen effect om modellen te vertellen dat ze in de gaten worden gehouden. Het afdwingen dat modellen hints rapporteren werkt wel, maar zorgt ervoor dat ze hints gaan rapporteren zelfs wanneer deze niet bestaan, en het vermindert hun nauwkeurigheid. We ontdekten ook dat hints die een beroep doen op gebruikersvoorkeuren bijzonder riskant zijn: modellen volgen deze het vaakst, terwijl ze ze het minst vaak vermelden. Deze bevindingen suggereren dat het simpelweg volgen van de AI-redenering niet voldoende is om verborgen invloeden te detecteren.

English

When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.

Kunnen we AI-verklaringen vertrouwen? Bewijs van systematische onderrapportage in keten-van-gedachten-redenering

Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning

Samenvatting

Support