Les LLM peuvent-ils faire de l'introspection ? Un retour à la réalité.

Résumé

Les grands modèles de langage peuvent-ils détecter et signaler leurs propres états internes ? Plusieurs études ont soutenu que la réponse à cette question est oui. Nous soutenons, en nous appuyant sur les leçons de la recherche en métacognition humaine, que cette conclusion pourrait être prématurée : pour être convaincus de cette conclusion, nous devons distinguer l'introspection authentique de la reconnaissance de motifs basée sur des indices de surface. De plus, nous argumentons que les preuves comportementales seules sont intrinsèquement insuffisantes pour établir des affirmations introspectives fortes. Nous réexaminons deux paradigmes d'évaluation récemment introduits à la lumière de cette considération. Dans le premier paradigme, on s'attend à ce que les modèles détectent si leurs états internes ont été altérés. Nous constatons que les modèles ne parviennent pas à distinguer de manière fiable ces interventions sur leurs états internes des manipulations de l'entrée, ce qui suggère que leur succès dans les études originales reflète leur capacité à détecter les anomalies de manière plus générale, plutôt que les interventions sur leurs états internes en particulier. Dans le second paradigme que nous examinons, les modèles ont pour tâche de prédire des étiquettes dérivées de leurs propres états cachés. Ici, nous constatons que les classifieurs qui n'ont accès qu'à l'entrée atteignent des performances équivalentes aux prédictions en contexte du modèle lui-même, indiquant que les résultats originaux ne démontrent pas de manière concluante que le modèle a un accès privilégié à ses représentations internes. Nous introduisons en outre un cadre de contrôle avec réétiquetage, où les modèles ne peuvent pas s'appuyer sur la sémantique de la tâche pour la résoudre, et doivent plutôt s'appuyer sur la représentation interne ; les modèles obtiennent des performances proches du hasard dans cette version mieux contrôlée de la tâche. Pris ensemble, ces résultats indiquent que les preuves actuelles sont insuffisantes pour établir que les LLMs présentent un monitoring métacognitif.

English

Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distinguish genuine introspection from pattern matching based on surface-level cues. Furthermore, we argue that behavioral evidence alone is inherently insufficient to establish strong introspective claims. We re-examine two recently introduced evaluation paradigms in light of this consideration. In the first paradigm, models are expected to detect whether their internal states have been tampered with. We find that models cannot reliably distinguish such interventions on their internal states from manipulations of the input, suggesting that their success in the original studies reflects their ability to detect anomalies more generally, as opposed to interventions on their internal states in particular. In the second paradigm we examine, models are tasked with predicting labels derived from their own hidden states. Here, we find that classifiers that only have access to the input achieve equivalent performance to the model's own in-context predictions, indicating that the original results do not conclusively demonstrate that the model has privileged access to its internal representations. We further introduce a relabeled control setting, where models cannot rely on the semantics of the task to solve it, and instead must rely on the internal representation; models perform closer to chance on this better-controlled version of the task. Taken together, these results indicate that current evidence is insufficient to establish that LLMs display metacognitive monitoring.