Können LLMs introspektieren? Ein Realitätscheck

Zusammenfassung

Können große Sprachmodelle ihre eigenen internen Zustände erkennen und berichten? Eine Reihe von Studien hat argumentiert, dass die Antwort auf diese Frage „ja“ lautet. Wir argumentieren, basierend auf Erkenntnissen aus der menschlichen Metakognitionsforschung, dass diese Schlussfolgerung möglicherweise verfrüht ist: Um von dieser Schlussfolgerung überzeugt zu sein, müssen wir echte Introspektion von Mustererkennung auf Grundlage oberflächlicher Hinweise unterscheiden. Darüber hinaus argumentieren wir, dass Verhaltensnachweise allein grundsätzlich nicht ausreichen, um starke introspektive Behauptungen zu untermauern. Wir untersuchen vor diesem Hintergrund zwei kürzlich eingeführte Evaluierungsparadigmen neu. Im ersten Paradigma sollen Modelle erkennen, ob ihre internen Zustände manipuliert wurden. Wir stellen fest, dass Modelle solche Eingriffe in ihre internen Zustände nicht zuverlässig von Manipulationen des Inputs unterscheiden können, was darauf hindeutet, dass ihr Erfolg in den ursprünglichen Studien ihre Fähigkeit widerspiegelt, Anomalien allgemein zu erkennen, und nicht spezifisch Eingriffe in ihre internen Zustände. Im zweiten von uns untersuchten Paradigma haben Modelle die Aufgabe, Labels vorherzusagen, die von ihren eigenen verborgenen Zuständen abgeleitet werden. Hier stellen wir fest, dass Klassifikatoren, die nur Zugang zum Input haben, eine gleichwertige Leistung wie die eigenen Kontextvorhersagen des Modells erzielen, was darauf hindeutet, dass die ursprünglichen Ergebnisse nicht schlüssig belegen, dass das Modell einen privilegierten Zugang zu seinen internen Repräsentationen hat. Wir führen außerdem eine umbeschriftete Kontrollbedingung ein, bei der Modelle sich nicht auf die Semantik der Aufgabe verlassen können, um sie zu lösen, sondern stattdessen auf die interne Repräsentation angewiesen sind; Modelle liefern bei dieser besser kontrollierten Version der Aufgabe Ergebnisse, die näher am Zufallsniveau liegen. Zusammengenommen deuten diese Ergebnisse darauf hin, dass die aktuellen Belege nicht ausreichen, um zu belegen, dass große Sprachmodelle metakognitive Überwachung zeigen.

English

Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distinguish genuine introspection from pattern matching based on surface-level cues. Furthermore, we argue that behavioral evidence alone is inherently insufficient to establish strong introspective claims. We re-examine two recently introduced evaluation paradigms in light of this consideration. In the first paradigm, models are expected to detect whether their internal states have been tampered with. We find that models cannot reliably distinguish such interventions on their internal states from manipulations of the input, suggesting that their success in the original studies reflects their ability to detect anomalies more generally, as opposed to interventions on their internal states in particular. In the second paradigm we examine, models are tasked with predicting labels derived from their own hidden states. Here, we find that classifiers that only have access to the input achieve equivalent performance to the model's own in-context predictions, indicating that the original results do not conclusively demonstrate that the model has privileged access to its internal representations. We further introduce a relabeled control setting, where models cannot rely on the semantics of the task to solve it, and instead must rely on the internal representation; models perform closer to chance on this better-controlled version of the task. Taken together, these results indicate that current evidence is insufficient to establish that LLMs display metacognitive monitoring.