¿Pueden los LLMs realizar introspección? Una comprobación de la realidad.

Resumen

¿Pueden los modelos de lenguaje de gran escala detectar e informar sobre sus propios estados internos? Diversos estudios han argumentado que la respuesta a esta pregunta es afirmativa. Nosotros sostenemos, basándonos en lecciones provenientes de la investigación sobre metacognición humana, que esta conclusión puede ser prematura: para estar convencidos de ella, necesitamos distinguir la introspección genuina del reconocimiento de patrones basado en señales superficiales. Además, argumentamos que la evidencia conductual por sí sola es inherentemente insuficiente para establecer afirmaciones introspectivas sólidas. Reexaminamos dos paradigmas de evaluación introducidos recientemente a la luz de esta consideración. En el primer paradigma, se espera que los modelos detecten si sus estados internos han sido manipulados. Encontramos que los modelos no pueden distinguir de manera fiable dichas intervenciones sobre sus estados internos de las manipulaciones en la entrada, lo que sugiere que su éxito en los estudios originales refleja su capacidad para detectar anomalías en general, en lugar de intervenciones específicas sobre sus estados internos. En el segundo paradigma que examinamos, los modelos tienen la tarea de predecir etiquetas derivadas de sus propios estados ocultos. Aquí, encontramos que los clasificadores que solo tienen acceso a la entrada alcanzan un rendimiento equivalente al de las predicciones en contexto del propio modelo, lo que indica que los resultados originales no demuestran de manera concluyente que el modelo tenga acceso privilegiado a sus representaciones internas. Además, introducimos una condición de control con reetiquetado, donde los modelos no pueden basarse en la semántica de la tarea para resolverla, sino que deben depender de la representación interna; los modelos se desempeñan más cerca del azar en esta versión mejor controlada de la tarea. En conjunto, estos resultados indican que la evidencia actual es insuficiente para establecer que los LLM muestren monitoreo metacognitivo.

English

Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distinguish genuine introspection from pattern matching based on surface-level cues. Furthermore, we argue that behavioral evidence alone is inherently insufficient to establish strong introspective claims. We re-examine two recently introduced evaluation paradigms in light of this consideration. In the first paradigm, models are expected to detect whether their internal states have been tampered with. We find that models cannot reliably distinguish such interventions on their internal states from manipulations of the input, suggesting that their success in the original studies reflects their ability to detect anomalies more generally, as opposed to interventions on their internal states in particular. In the second paradigm we examine, models are tasked with predicting labels derived from their own hidden states. Here, we find that classifiers that only have access to the input achieve equivalent performance to the model's own in-context predictions, indicating that the original results do not conclusively demonstrate that the model has privileged access to its internal representations. We further introduce a relabeled control setting, where models cannot rely on the semantics of the task to solve it, and instead must rely on the internal representation; models perform closer to chance on this better-controlled version of the task. Taken together, these results indicate that current evidence is insufficient to establish that LLMs display metacognitive monitoring.