Inside-Out: Скрытые фактические знания в языковых моделях
Inside-Out: Hidden Factual Knowledge in LLMs
March 19, 2025
Авторы: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart
cs.AI
Аннотация
В данной работе представлена методика для оценки того, содержат ли крупные языковые модели (LLM) в своих параметрах больше фактических знаний, чем они выражают в своих выводах. Хотя несколько исследований намекают на такую возможность, ни одно из них не дало четкого определения или демонстрации этого явления. Мы сначала предлагаем формальное определение знания, количественно оценивая его для заданного вопроса как долю пар правильных и неправильных ответов, где правильный ответ имеет более высокий рейтинг. Это приводит к понятиям внешнего и внутреннего знания, в зависимости от информации, используемой для оценки отдельных кандидатов на ответ: либо наблюдаемые вероятности на уровне токенов модели, либо ее промежуточные вычисления. Скрытое знание возникает, когда внутреннее знание превышает внешнее. Затем мы представляем кейс-стади, применяя эту методику к трем популярным LLM с открытыми весами в условиях закрытой книги (closed-book QA). Наши результаты показывают, что: (1) LLM последовательно содержат больше фактических знаний внутри, чем выражают внешне, со средним разрывом в 40%. (2) Удивительно, но некоторые знания настолько глубоко скрыты, что модель может идеально знать ответ внутри, но не сгенерировать его ни разу, несмотря на масштабное повторное сэмплирование 1000 ответов. Это выявляет фундаментальные ограничения в генерационных возможностях LLM, что (3) накладывает практическое ограничение на масштабирование вычислительных ресурсов во время тестирования через повторное сэмплирование ответов в условиях закрытой книги: значительные улучшения производительности остаются недоступными, потому что некоторые ответы практически никогда не выбираются, хотя если бы они были выбраны, мы гарантированно поставили бы их на первое место.
English
This work presents a framework for assessing whether large language models
(LLMs) encode more factual knowledge in their parameters than what they express
in their outputs. While a few studies hint at this possibility, none has
clearly defined or demonstrated this phenomenon. We first propose a formal
definition of knowledge, quantifying it for a given question as the fraction of
correct-incorrect answer pairs where the correct one is ranked higher. This
gives rise to external and internal knowledge, depending on the information
used to score individual answer candidates: either the model's observable
token-level probabilities or its intermediate computations. Hidden knowledge
arises when internal knowledge exceeds external knowledge. We then present a
case study, applying this framework to three popular open-weights LLMs in a
closed-book QA setup. Our results indicate that: (1) LLMs consistently encode
more factual knowledge internally than what they express externally, with an
average gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a
model can internally know an answer perfectly, yet fail to generate it even
once, despite large-scale repeated sampling of 1,000 answers. This reveals
fundamental limitations in the generation capabilities of LLMs, which (3) puts
a practical constraint on scaling test-time compute via repeated answer
sampling in closed-book QA: significant performance improvements remain
inaccessible because some answers are practically never sampled, yet if they
were, we would be guaranteed to rank them first.Summary
AI-Generated Summary