Могут ли LLM заниматься интроспекцией? Проверка на реальность

Аннотация

Могут ли большие языковые модели обнаруживать и сообщать о своих собственных внутренних состояниях? Ряд исследований утверждает, что ответ на этот вопрос положителен. Мы утверждаем, основываясь на уроках из исследований метапознания у людей, что этот вывод может быть преждевременным: чтобы убедиться в нем, необходимо отличать подлинную интроспекцию от распознавания образов на основе поверхностных признаков. Более того, мы утверждаем, что только поведенческие данные по своей сути недостаточны для установления сильных интроспективных утверждений. Мы заново рассматриваем две недавно предложенные парадигмы оценки с учетом этого соображения. В первой парадигме ожидается, что модели обнаруживают, были ли изменены их внутренние состояния. Мы обнаруживаем, что модели не могут надежно отличить такие вмешательства в их внутренние состояния от манипуляций с входными данными, что позволяет предположить, что их успех в исходных исследованиях отражает их способность обнаруживать аномалии в целом, а не вмешательства в их внутренние состояния в частности. Во второй парадигме, которую мы рассматриваем, модели ставят задачу предсказания меток, полученных из их собственных скрытых состояний. Здесь мы обнаруживаем, что классификаторы, имеющие доступ только к входным данным, достигают производительности, эквивалентной собственным контекстным предсказаниям модели, что указывает на то, что исходные результаты не демонстрируют окончательно, что модель имеет привилегированный доступ к своим внутренним представлениям. Мы дополнительно вводим контрольную установку с перемаркировкой, где модели не могут полагаться на семантику задачи для ее решения, а вместо этого должны полагаться на внутреннее представление; в этой более контролируемой версии задачи модели работают ближе к уровню случайности. В совокупности эти результаты указывают на то, что текущих доказательств недостаточно для установления того, что большие языковые модели демонстрируют метакогнитивный мониторинг.

English

Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distinguish genuine introspection from pattern matching based on surface-level cues. Furthermore, we argue that behavioral evidence alone is inherently insufficient to establish strong introspective claims. We re-examine two recently introduced evaluation paradigms in light of this consideration. In the first paradigm, models are expected to detect whether their internal states have been tampered with. We find that models cannot reliably distinguish such interventions on their internal states from manipulations of the input, suggesting that their success in the original studies reflects their ability to detect anomalies more generally, as opposed to interventions on their internal states in particular. In the second paradigm we examine, models are tasked with predicting labels derived from their own hidden states. Here, we find that classifiers that only have access to the input achieve equivalent performance to the model's own in-context predictions, indicating that the original results do not conclusively demonstrate that the model has privileged access to its internal representations. We further introduce a relabeled control setting, where models cannot rely on the semantics of the task to solve it, and instead must rely on the internal representation; models perform closer to chance on this better-controlled version of the task. Taken together, these results indicate that current evidence is insufficient to establish that LLMs display metacognitive monitoring.