Possiamo Fidarci delle Spiegazioni dell'IA? Evidenza di Sottostima Sistematica nel Ragionamento a Catena di Pensieri

Abstract

Quando i sistemi di IA spiegano il proprio ragionamento passo dopo passo, i professionisti spesso presumono che queste spiegazioni rivelino ciò che ha effettivamente influenzato la risposta dell'IA. Abbiamo testato questo assunto incorporando indizi nelle domande e misurando se i modelli li menzionassero. In uno studio su oltre 9.000 casi di test che coinvolgevano 11 modelli di IA all'avanguardia, abbiamo riscontrato uno schema preoccupante: i modelli quasi mai menzionano spontaneamente gli indizi, eppure, quando interrogati direttamente, ammettono di averli notati. Ciò suggerisce che i modelli percepiscono le informazioni influenti ma scelgono di non segnalarle. Avvertire i modelli di essere sotto osservazione non risolve il problema. Obbligare i modelli a segnalare gli indizi funziona, ma li induce a segnalare indizi anche quando non esistono e riduce la loro accuratezza. Abbiamo anche scoperto che gli indizi che fanno leva sulle preferenze dell'utente sono particolarmente pericolosi: i modelli li seguono più spesso proprio mentre sono meno inclini a segnalarli. Questi risultati suggeriscono che semplicemente osservare il ragionamento dell'IA non è sufficiente per individuare influenze nascoste.

English

When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.

Possiamo Fidarci delle Spiegazioni dell'IA? Evidenza di Sottostima Sistematica nel Ragionamento a Catena di Pensieri

Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning

Abstract

Support