Os LLMs Podem Fazer Introspecção? Um Teste de Realidade

Resumo

Modelos de linguagem de grande escala podem detectar e relatar seus próprios estados internos? Diversos estudos argumentam que a resposta a esta pergunta é sim. Nós argumentamos, com base em lições da pesquisa em metacognição humana, que essa conclusão pode ser prematura: para nos convencermos dessa conclusão, precisamos distinguir introspecção genuína de correspondência de padrões baseada em pistas superficiais. Além disso, argumentamos que apenas evidências comportamentais são inerentemente insuficientes para estabelecer afirmações introspectivas robustas. Reexaminamos dois paradigmas de avaliação recentemente introduzidos à luz dessa consideração. No primeiro paradigma, espera-se que os modelos detectem se seus estados internos foram adulterados. Descobrimos que os modelos não conseguem distinguir de forma confiável tais intervenções em seus estados internos de manipulações na entrada, sugerindo que seu sucesso nos estudos originais reflete sua capacidade de detectar anomalias de forma mais geral, em vez de intervenções em seus estados internos em particular. No segundo paradigma examinado, os modelos têm a tarefa de prever rótulos derivados de seus próprios estados ocultos. Aqui, descobrimos que classificadores que têm acesso apenas à entrada alcançam desempenho equivalente às próprias predições do modelo no contexto, indicando que os resultados originais não demonstram de forma conclusiva que o modelo tem acesso privilegiado às suas representações internas. Introduzimos ainda uma condição de controle re-rotulada, na qual os modelos não podem depender da semântica da tarefa para resolvê-la, tendo, em vez disso, que se basear na representação interna; os modelos têm desempenho próximo ao acaso nesta versão melhor controlada da tarefa. Em conjunto, esses resultados indicam que as evidências atuais são insuficientes para estabelecer que os LLMs exibem monitoramento metacognitivo.

English

Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distinguish genuine introspection from pattern matching based on surface-level cues. Furthermore, we argue that behavioral evidence alone is inherently insufficient to establish strong introspective claims. We re-examine two recently introduced evaluation paradigms in light of this consideration. In the first paradigm, models are expected to detect whether their internal states have been tampered with. We find that models cannot reliably distinguish such interventions on their internal states from manipulations of the input, suggesting that their success in the original studies reflects their ability to detect anomalies more generally, as opposed to interventions on their internal states in particular. In the second paradigm we examine, models are tasked with predicting labels derived from their own hidden states. Here, we find that classifiers that only have access to the input achieve equivalent performance to the model's own in-context predictions, indicating that the original results do not conclusively demonstrate that the model has privileged access to its internal representations. We further introduce a relabeled control setting, where models cannot rely on the semantics of the task to solve it, and instead must rely on the internal representation; models perform closer to chance on this better-controlled version of the task. Taken together, these results indicate that current evidence is insufficient to establish that LLMs display metacognitive monitoring.