Podemos Confiar nas Explicações de IA? Evidências de Subnotificação Sistemática no Raciocínio em Cadeia de Pensamento

Resumo

Quando os sistemas de IA explicam seu raciocínio passo a passo, os profissionais frequentemente assumem que essas explicações revelam o que realmente influenciou a resposta da IA. Testámos essa suposição incorporando pistas nas perguntas e medindo se os modelos as mencionavam. Num estudo com mais de 9.000 casos de teste em 11 dos principais modelos de IA, encontramos um padrão preocupante: os modelos quase nunca mencionam pistas espontaneamente, mas quando questionados diretamente, admitem tê-las notado. Isso sugere que os modelos veem informações influentes, mas optam por não relatá-las. Alertar os modelos de que estão a ser observados não ajuda. Forçar os modelos a relatar pistas funciona, mas faz com que eles relatem pistas mesmo quando nenhuma existe e reduz sua precisão. Também descobrimos que as pistas que apelam às preferências do utilizador são especialmente perigosas – os modelos seguem-nas com mais frequência, ao mesmo tempo que menos as reportam. Estas descobertas sugerem que simplesmente observar o raciocínio da IA não é suficiente para detetar influências ocultas.

English

When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.

Podemos Confiar nas Explicações de IA? Evidências de Subnotificação Sistemática no Raciocínio em Cadeia de Pensamento

Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning

Resumo

Support