Verdeckt durch Konsens: Die Entwirrung privilegierten Wissens in der Korrektheit von LLMs

Zusammenfassung

Menschen nutzen Introspektion, um ihr Verständnis durch private innere Zustände zu bewerten, die für externe Beobachter nicht zugänglich sind. Wir untersuchen, ob große Sprachmodelle über ähnlich privilegiertes Wissen bezüglich der Richtigkeit von Antworten verfügen – Informationen, die durch externe Beobachtung nicht verfügbar sind. Wir trainieren Korrektheits-Klassifikatoren auf Fragenrepräsentationen, die sowohl aus den eigenen verborgenen Zuständen eines Modells als auch aus externen Modellen stammen, und testen, ob Selbstrepräsentationen einen Leistungsvorteil bieten. In der Standardevaluation finden wir keinen Vorteil: Selbst-„Probes“ (Abfragen) schneiden vergleichbar mit Fremdmodell-„Probes“ ab. Wir stellen die Hypothese auf, dass dies auf eine hohe Übereinstimmung zwischen den Modellen bei der Antwortkorrektheit zurückzuführen ist. Um echtes privilegiertes Wissen zu isolieren, evaluieren wir auf Teilmengen mit Meinungsverschiedenheiten, bei denen die Modelle widersprüchliche Vorhersagen treffen. Hier entdecken wir domainspezifisches privilegiertes Wissen: Selbstrepräsentationen übertreffen Fremdrepräsentationen durchgängig bei Aufgaben zum faktischen Wissen, zeigen jedoch keinen Vorteil beim mathematischen Denken. Wir lokalisieren diese Domain-Asymmetrie weiter über die Modellebenen hinweg und stellen fest, dass der faktische Vorteil progressiv ab frühen bis mittleren Ebenen entsteht, was mit modellspezifischem Gedächtnisabruf konsistent ist, während mathematisches Denken auf keiner Ebene einen konsistenten Vorteil zeigt.

English

Humans use introspection to evaluate their understanding through private internal states inaccessible to external observers. We investigate whether large language models possess similar privileged knowledge about answer correctness, information unavailable through external observation. We train correctness classifiers on question representations from both a model's own hidden states and external models, testing whether self-representations provide a performance advantage. On standard evaluation, we find no advantage: self-probes perform comparably to peer-model probes. We hypothesize this is due to high inter-model agreement of answer correctness. To isolate genuine privileged knowledge, we evaluate on disagreement subsets, where models produce conflicting predictions. Here, we discover domain-specific privileged knowledge: self-representations consistently outperform peer representations in factual knowledge tasks, but show no advantage in math reasoning. We further localize this domain asymmetry across model layers, finding that the factual advantage emerges progressively from early-to-mid layers onward, consistent with model-specific memory retrieval, while math reasoning shows no consistent advantage at any depth.

Verdeckt durch Konsens: Die Entwirrung privilegierten Wissens in der Korrektheit von LLMs

Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness

Zusammenfassung

Support