Estimando o Conhecimento em Modelos de Linguagem de Grande Escala Sem Gerar um Único Token
Estimating Knowledge in Large Language Models Without Generating a Single Token
June 18, 2024
Autores: Daniela Gottesman, Mor Geva
cs.AI
Resumo
Para avaliar o conhecimento em modelos de linguagem de grande escala (LLMs, na sigla em inglês), os métodos atuais consultam o modelo e avaliam suas respostas geradas. Neste trabalho, questionamos se a avaliação pode ser feita antes que o modelo gere qualquer texto. Mais concretamente, é possível estimar o quanto um modelo é conhecedor sobre uma determinada entidade, apenas a partir de sua computação interna? Estudamos essa questão com duas tarefas: dada uma entidade sujeito, o objetivo é prever (a) a capacidade do modelo de responder a perguntas comuns sobre a entidade e (b) a factualidade das respostas geradas pelo modelo sobre a entidade. Experimentos com uma variedade de LLMs mostram que o KEEN, uma sonda simples treinada sobre representações internas do sujeito, tem sucesso em ambas as tarefas — correlacionando-se fortemente tanto com a precisão de perguntas e respostas (QA) do modelo por sujeito quanto com o FActScore, uma métrica recente de factualidade em geração de texto aberta. Além disso, o KEEN alinha-se naturalmente com o comportamento de hesitação do modelo e reflete fielmente mudanças no conhecimento do modelo após o ajuste fino. Por fim, mostramos uma variante do KEEN mais interpretável e igualmente eficiente, que destaca um pequeno conjunto de tokens que se correlaciona com a falta de conhecimento do modelo. Sendo simples e leve, o KEEN pode ser utilizado para identificar lacunas e agrupamentos de conhecimento sobre entidades em LLMs, além de orientar decisões como o aumento de consultas com recuperação de informações.
English
To evaluate knowledge in large language models (LLMs), current methods query
the model and then evaluate its generated responses. In this work, we ask
whether evaluation can be done before the model has generated any
text. Concretely, is it possible to estimate how knowledgeable a model is about
a certain entity, only from its internal computation? We study this question
with two tasks: given a subject entity, the goal is to predict (a) the ability
of the model to answer common questions about the entity, and (b) the
factuality of responses generated by the model about the entity. Experiments
with a variety of LLMs show that KEEN, a simple probe trained over internal
subject representations, succeeds at both tasks - strongly correlating with
both the QA accuracy of the model per-subject and FActScore, a recent
factuality metric in open-ended generation. Moreover, KEEN naturally aligns
with the model's hedging behavior and faithfully reflects changes in the
model's knowledge after fine-tuning. Lastly, we show a more interpretable yet
equally performant variant of KEEN, which highlights a small set of tokens that
correlates with the model's lack of knowledge. Being simple and lightweight,
KEEN can be leveraged to identify gaps and clusters of entity knowledge in
LLMs, and guide decisions such as augmenting queries with retrieval.