Verhuld door Consensus: Het Ontwarren van Begenadigde Kennis in de Nauwkeurigheid van LLM's

Samenvatting

Mensen gebruiken introspectie om hun begrip te evalueren via privé interne toestanden die niet toegankelijk zijn voor externe waarnemers. Wij onderzoeken of grote taalmodelen over vergelijkbaar geprivilegieerde kennis beschikken over de juistheid van antwoorden, informatie die niet via externe observatie verkrijgbaar is. We trainen juistheidsclassificatoren op vraagrepresentaties afkomstig van zowel de eigen verborgen toestanden van een model als van externe modellen, om te testen of zelfrepresentaties een prestatievoordeel bieden. Bij standaardevaluatie vinden we geen voordeel: zelf-probes presteren vergelijkbaar met probes van peer-modellen. We veronderstellen dat dit komt door een hoge overeenstemming tussen modellen over antwoordjuistheid. Om authentieke geprivilegieerde kennis te isoleren, evalueren we op deelverzamelingen met onenigheid, waar modellen tegenstrijdige voorspellingen produceren. Hier ontdekken we domeinspecifieke geprivilegieerde kennis: zelfrepresentaties overtreffen peer-representaties consistent bij taken met feitelijke kennis, maar tonen geen voordeel bij wiskundig redeneren. We lokaliseren verder deze domeinasymmetrie over modellagen, en vinden dat het feitelijke voordeel zich geleidelijk ontwikkelt vanaf de vroege tot middenlagen, consistent met modelspecifieke geheugenretrieval, terwijl wiskundig redeneren op geen enkel niveau een consistent voordeel vertoont.

English

Humans use introspection to evaluate their understanding through private internal states inaccessible to external observers. We investigate whether large language models possess similar privileged knowledge about answer correctness, information unavailable through external observation. We train correctness classifiers on question representations from both a model's own hidden states and external models, testing whether self-representations provide a performance advantage. On standard evaluation, we find no advantage: self-probes perform comparably to peer-model probes. We hypothesize this is due to high inter-model agreement of answer correctness. To isolate genuine privileged knowledge, we evaluate on disagreement subsets, where models produce conflicting predictions. Here, we discover domain-specific privileged knowledge: self-representations consistently outperform peer representations in factual knowledge tasks, but show no advantage in math reasoning. We further localize this domain asymmetry across model layers, finding that the factual advantage emerges progressively from early-to-mid layers onward, consistent with model-specific memory retrieval, while math reasoning shows no consistent advantage at any depth.

Verhuld door Consensus: Het Ontwarren van Begenadigde Kennis in de Nauwkeurigheid van LLM's

Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness

Samenvatting

Support