ChatPaper.aiChatPaper

Estimando o Conhecimento em Modelos de Linguagem de Grande Escala Sem Gerar um Único Token

Estimating Knowledge in Large Language Models Without Generating a Single Token

June 18, 2024
Autores: Daniela Gottesman, Mor Geva
cs.AI

Resumo

Para avaliar o conhecimento em modelos de linguagem de grande escala (LLMs, na sigla em inglês), os métodos atuais consultam o modelo e avaliam suas respostas geradas. Neste trabalho, questionamos se a avaliação pode ser feita antes que o modelo gere qualquer texto. Mais concretamente, é possível estimar o quanto um modelo é conhecedor sobre uma determinada entidade, apenas a partir de sua computação interna? Estudamos essa questão com duas tarefas: dada uma entidade sujeito, o objetivo é prever (a) a capacidade do modelo de responder a perguntas comuns sobre a entidade e (b) a factualidade das respostas geradas pelo modelo sobre a entidade. Experimentos com uma variedade de LLMs mostram que o KEEN, uma sonda simples treinada sobre representações internas do sujeito, tem sucesso em ambas as tarefas — correlacionando-se fortemente tanto com a precisão de perguntas e respostas (QA) do modelo por sujeito quanto com o FActScore, uma métrica recente de factualidade em geração de texto aberta. Além disso, o KEEN alinha-se naturalmente com o comportamento de hesitação do modelo e reflete fielmente mudanças no conhecimento do modelo após o ajuste fino. Por fim, mostramos uma variante do KEEN mais interpretável e igualmente eficiente, que destaca um pequeno conjunto de tokens que se correlaciona com a falta de conhecimento do modelo. Sendo simples e leve, o KEEN pode ser utilizado para identificar lacunas e agrupamentos de conhecimento sobre entidades em LLMs, além de orientar decisões como o aumento de consultas com recuperação de informações.
English
To evaluate knowledge in large language models (LLMs), current methods query the model and then evaluate its generated responses. In this work, we ask whether evaluation can be done before the model has generated any text. Concretely, is it possible to estimate how knowledgeable a model is about a certain entity, only from its internal computation? We study this question with two tasks: given a subject entity, the goal is to predict (a) the ability of the model to answer common questions about the entity, and (b) the factuality of responses generated by the model about the entity. Experiments with a variety of LLMs show that KEEN, a simple probe trained over internal subject representations, succeeds at both tasks - strongly correlating with both the QA accuracy of the model per-subject and FActScore, a recent factuality metric in open-ended generation. Moreover, KEEN naturally aligns with the model's hedging behavior and faithfully reflects changes in the model's knowledge after fine-tuning. Lastly, we show a more interpretable yet equally performant variant of KEEN, which highlights a small set of tokens that correlates with the model's lack of knowledge. Being simple and lightweight, KEEN can be leveraged to identify gaps and clusters of entity knowledge in LLMs, and guide decisions such as augmenting queries with retrieval.
PDF81December 4, 2024