Inside-Out: Conocimiento factual oculto en los LLMs
Inside-Out: Hidden Factual Knowledge in LLMs
March 19, 2025
Autores: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart
cs.AI
Resumen
Este trabajo presenta un marco para evaluar si los modelos de lenguaje de gran escala (LLMs) codifican más conocimiento factual en sus parámetros de lo que expresan en sus salidas. Aunque algunos estudios sugieren esta posibilidad, ninguno ha definido o demostrado claramente este fenómeno. Primero proponemos una definición formal de conocimiento, cuantificándolo para una pregunta dada como la fracción de pares de respuestas correctas-incorrectas donde la correcta se clasifica más alta. Esto da lugar a conocimiento externo e interno, dependiendo de la información utilizada para puntuar candidatos individuales de respuesta: ya sean las probabilidades observables a nivel de token del modelo o sus cálculos intermedios. El conocimiento oculto surge cuando el conocimiento interno supera al externo. Luego presentamos un estudio de caso, aplicando este marco a tres LLMs populares de pesos abiertos en una configuración de preguntas y respuestas de libro cerrado. Nuestros resultados indican que: (1) Los LLMs codifican consistentemente más conocimiento factual internamente de lo que expresan externamente, con una brecha promedio del 40%. (2) Sorprendentemente, parte del conocimiento está tan profundamente oculto que un modelo puede conocer internamente una respuesta perfectamente, pero no generarla ni una sola vez, a pesar de un muestreo repetido a gran escala de 1,000 respuestas. Esto revela limitaciones fundamentales en las capacidades de generación de los LLMs, lo que (3) impone una restricción práctica al escalar el cómputo en tiempo de prueba mediante el muestreo repetido de respuestas en preguntas y respuestas de libro cerrado: las mejoras significativas de rendimiento siguen siendo inaccesibles porque algunas respuestas prácticamente nunca se muestrean, aunque si lo fueran, estaríamos garantizados de clasificarlas en primer lugar.
English
This work presents a framework for assessing whether large language models
(LLMs) encode more factual knowledge in their parameters than what they express
in their outputs. While a few studies hint at this possibility, none has
clearly defined or demonstrated this phenomenon. We first propose a formal
definition of knowledge, quantifying it for a given question as the fraction of
correct-incorrect answer pairs where the correct one is ranked higher. This
gives rise to external and internal knowledge, depending on the information
used to score individual answer candidates: either the model's observable
token-level probabilities or its intermediate computations. Hidden knowledge
arises when internal knowledge exceeds external knowledge. We then present a
case study, applying this framework to three popular open-weights LLMs in a
closed-book QA setup. Our results indicate that: (1) LLMs consistently encode
more factual knowledge internally than what they express externally, with an
average gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a
model can internally know an answer perfectly, yet fail to generate it even
once, despite large-scale repeated sampling of 1,000 answers. This reveals
fundamental limitations in the generation capabilities of LLMs, which (3) puts
a practical constraint on scaling test-time compute via repeated answer
sampling in closed-book QA: significant performance improvements remain
inaccessible because some answers are practically never sampled, yet if they
were, we would be guaranteed to rank them first.Summary
AI-Generated Summary