Inside-Out: Verborgen Feitelijke Kennis in LLM's
Inside-Out: Hidden Factual Knowledge in LLMs
March 19, 2025
Auteurs: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart
cs.AI
Samenvatting
Dit werk presenteert een raamwerk voor het beoordelen of grote taalmmodellen (LLMs) meer feitelijke kennis in hun parameters coderen dan wat ze in hun uitvoer tot uitdrukking brengen. Hoewel enkele studies op deze mogelijkheid wijzen, heeft geen enkele dit fenomeen duidelijk gedefinieerd of aangetoond. We stellen eerst een formele definitie van kennis voor, waarbij we deze voor een gegeven vraag kwantificeren als de fractie van correct-incorrect antwoordparen waarin het correcte antwoord hoger wordt gerangschikt. Dit leidt tot externe en interne kennis, afhankelijk van de informatie die wordt gebruikt om individuele antwoordkandidaten te scoren: ofwel de observeerbare token-niveau kansen van het model, ofwel de tussenliggende berekeningen. Verborgen kennis ontstaat wanneer interne kennis externe kennis overtreft. Vervolgens presenteren we een casestudy waarin we dit raamwerk toepassen op drie populaire open-gewichten LLMs in een closed-book QA-opstelling. Onze resultaten geven aan dat: (1) LLMs consistent meer feitelijke kennis intern coderen dan wat ze extern tot uitdrukking brengen, met een gemiddeld verschil van 40%. (2) Verrassend genoeg is sommige kennis zo diep verborgen dat een model een antwoord intern perfect kan kennen, maar het zelfs niet één keer kan genereren, ondanks grootschalige herhaalde steekproeven van 1.000 antwoorden. Dit onthult fundamentele beperkingen in de generatiecapaciteiten van LLMs, wat (3) een praktische beperking vormt voor het opschalen van test-tijd rekenkracht via herhaalde antwoordsteekproeven in closed-book QA: significante prestatieverbeteringen blijven ontoegankelijk omdat sommige antwoorden praktisch nooit worden bemonsterd, terwijl we ze gegarandeerd als eerste zouden rangschikken als ze dat wel waren.
English
This work presents a framework for assessing whether large language models
(LLMs) encode more factual knowledge in their parameters than what they express
in their outputs. While a few studies hint at this possibility, none has
clearly defined or demonstrated this phenomenon. We first propose a formal
definition of knowledge, quantifying it for a given question as the fraction of
correct-incorrect answer pairs where the correct one is ranked higher. This
gives rise to external and internal knowledge, depending on the information
used to score individual answer candidates: either the model's observable
token-level probabilities or its intermediate computations. Hidden knowledge
arises when internal knowledge exceeds external knowledge. We then present a
case study, applying this framework to three popular open-weights LLMs in a
closed-book QA setup. Our results indicate that: (1) LLMs consistently encode
more factual knowledge internally than what they express externally, with an
average gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a
model can internally know an answer perfectly, yet fail to generate it even
once, despite large-scale repeated sampling of 1,000 answers. This reveals
fundamental limitations in the generation capabilities of LLMs, which (3) puts
a practical constraint on scaling test-time compute via repeated answer
sampling in closed-book QA: significant performance improvements remain
inaccessible because some answers are practically never sampled, yet if they
were, we would be guaranteed to rank them first.Summary
AI-Generated Summary