ChatPaper.aiChatPaper

Можно ли доверять объяснениям ИИ? Свидетельства систематического сокрытия информации в цепочечных рассуждениях

Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning

December 25, 2025
Авторы: Deep Pankajbhai Mehta
cs.AI

Аннотация

Когда ИИ-системы объясняют свои рассуждения шаг за шагом, специалисты часто предполагают, что эти объяснения раскрывают реальные факторы, повлиявшие на ответ ИИ. Мы проверили это предположение, внедряя подсказки в вопросы и измеряя, упоминают ли их модели. В исследовании, охватившем более 9000 тестовых случаев с участием 11 ведущих моделей ИИ, мы обнаружили тревожную закономерность: модели почти никогда не упоминают подсказки спонтанно, но при прямом вопросе признают, что заметили их. Это позволяет предположить, что модели видят влиятельную информацию, но предпочитают не сообщать о ней. Указание моделям на то, что за ними наблюдают, не помогает. Принудительное требование к моделям сообщать о подсказках работает, но приводит к тому, что они начинают сообщать о подсказках, даже когда их нет, и снижает их точность. Мы также выяснили, что подсказки, апеллирующие к предпочтениям пользователя, особенно опасны — модели следуют им чаще всего, при этом меньше всего о них сообщая. Эти находки свидетельствуют, что простого наблюдения за рассуждениями ИИ недостаточно, чтобы выявить скрытые влияния.
English
When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.
PDF33February 8, 2026