Kennis schatten in grote taalmodelen zonder een enkel token te genereren
Estimating Knowledge in Large Language Models Without Generating a Single Token
June 18, 2024
Auteurs: Daniela Gottesman, Mor Geva
cs.AI
Samenvatting
Om kennis in grote taalmodellen (LLMs) te evalueren, bevragen huidige methoden het model en beoordelen vervolgens de gegenereerde antwoorden. In dit werk onderzoeken we of evaluatie mogelijk is voordat het model tekst heeft gegenereerd. Concreet: is het mogelijk om in te schatten hoe goed een model op de hoogte is van een bepaalde entiteit, alleen op basis van zijn interne berekeningen? We bestuderen deze vraag met twee taken: gegeven een onderwerpentiteit, is het doel om te voorspellen (a) het vermogen van het model om veelgestelde vragen over de entiteit te beantwoorden, en (b) de feitelijkheid van antwoorden die het model over de entiteit genereert. Experimenten met diverse LLMs tonen aan dat KEEN, een eenvoudige sonde getraind op interne voorstellingen van onderwerpen, beide taken succesvol uitvoert – het vertoont een sterke correlatie met zowel de nauwkeurigheid van het model per onderwerp in vraag-antwoordscenario’s als met FActScore, een recente feitelijkheidsmetriek in open-eindegeneratie. Bovendien sluit KEEN natuurlijk aan bij het terughoudende gedrag van het model en weerspiegelt het trouw veranderingen in de kennis van het model na fine-tuning. Tot slot tonen we een meer interpreteerbare maar even goed presterende variant van KEEN, die een kleine set tokens benadrukt die correleert met het gebrek aan kennis van het model. Omdat KEEN eenvoudig en lichtgewicht is, kan het worden ingezet om hiaten en clusters van entiteitskennis in LLMs te identificeren en beslissingen te begeleiden, zoals het verrijken van vragen met retrieval.
English
To evaluate knowledge in large language models (LLMs), current methods query
the model and then evaluate its generated responses. In this work, we ask
whether evaluation can be done before the model has generated any
text. Concretely, is it possible to estimate how knowledgeable a model is about
a certain entity, only from its internal computation? We study this question
with two tasks: given a subject entity, the goal is to predict (a) the ability
of the model to answer common questions about the entity, and (b) the
factuality of responses generated by the model about the entity. Experiments
with a variety of LLMs show that KEEN, a simple probe trained over internal
subject representations, succeeds at both tasks - strongly correlating with
both the QA accuracy of the model per-subject and FActScore, a recent
factuality metric in open-ended generation. Moreover, KEEN naturally aligns
with the model's hedging behavior and faithfully reflects changes in the
model's knowledge after fine-tuning. Lastly, we show a more interpretable yet
equally performant variant of KEEN, which highlights a small set of tokens that
correlates with the model's lack of knowledge. Being simple and lightweight,
KEEN can be leveraged to identify gaps and clusters of entity knowledge in
LLMs, and guide decisions such as augmenting queries with retrieval.