De Dentro para Fora: Conhecimento Fático Oculto em LLMs
Inside-Out: Hidden Factual Knowledge in LLMs
March 19, 2025
Autores: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart
cs.AI
Resumo
Este trabalho apresenta um framework para avaliar se os grandes modelos de linguagem (LLMs) codificam mais conhecimento factual em seus parâmetros do que expressam em suas saídas. Embora alguns estudos sugiram essa possibilidade, nenhum definiu ou demonstrou claramente esse fenômeno. Primeiro, propomos uma definição formal de conhecimento, quantificando-o para uma determinada questão como a fração de pares de respostas corretas-incorretas em que a correta é classificada mais alta. Isso dá origem ao conhecimento externo e interno, dependendo das informações usadas para pontuar os candidatos a resposta: seja as probabilidades observáveis no nível de token do modelo ou seus cálculos intermediários. O conhecimento oculto surge quando o conhecimento interno excede o conhecimento externo. Em seguida, apresentamos um estudo de caso, aplicando esse framework a três LLMs populares de pesos abertos em uma configuração de perguntas e respostas (QA) de livro fechado. Nossos resultados indicam que: (1) LLMs codificam consistentemente mais conhecimento factual internamente do que expressam externamente, com uma lacuna média de 40%. (2) Surpreendentemente, algum conhecimento está tão profundamente oculto que um modelo pode saber internamente uma resposta perfeitamente, mas falhar em gerá-la mesmo uma vez, apesar de uma amostragem repetida em larga escala de 1.000 respostas. Isso revela limitações fundamentais nas capacidades de geração dos LLMs, o que (3) impõe uma restrição prática ao escalonamento do cálculo no tempo de teste por meio de amostragem repetida de respostas em QA de livro fechado: melhorias significativas de desempenho permanecem inacessíveis porque algumas respostas praticamente nunca são amostradas, mas, se fossem, teríamos a garantia de classificá-las em primeiro lugar.
English
This work presents a framework for assessing whether large language models
(LLMs) encode more factual knowledge in their parameters than what they express
in their outputs. While a few studies hint at this possibility, none has
clearly defined or demonstrated this phenomenon. We first propose a formal
definition of knowledge, quantifying it for a given question as the fraction of
correct-incorrect answer pairs where the correct one is ranked higher. This
gives rise to external and internal knowledge, depending on the information
used to score individual answer candidates: either the model's observable
token-level probabilities or its intermediate computations. Hidden knowledge
arises when internal knowledge exceeds external knowledge. We then present a
case study, applying this framework to three popular open-weights LLMs in a
closed-book QA setup. Our results indicate that: (1) LLMs consistently encode
more factual knowledge internally than what they express externally, with an
average gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a
model can internally know an answer perfectly, yet fail to generate it even
once, despite large-scale repeated sampling of 1,000 answers. This reveals
fundamental limitations in the generation capabilities of LLMs, which (3) puts
a practical constraint on scaling test-time compute via repeated answer
sampling in closed-book QA: significant performance improvements remain
inaccessible because some answers are practically never sampled, yet if they
were, we would be guaranteed to rank them first.Summary
AI-Generated Summary