Пустые полки или потерянные ключи? Воспроизведение — это узкое место параметрической фактической точности

Аннотация

Стандартные оценки фактической точности языковых моделей трактуют все ошибки одинаково, скрывая, вызваны ли сбои отсутствием знаний («пустые полки») или ограниченным доступом к закодированным фактам («потерянные ключи»). Мы предлагаем поведенческую структуру, которая профилирует фактические знания на уровне фактов, а не вопросов, характеризуя каждый факт по тому, закодирован ли он, а затем по степени его доступности: не может быть воспроизведен, может быть воспроизведен напрямую или может быть воспроизведен только с помощью вычислений во время вывода («размышление»). Для поддержки такого профилирования мы представляем WikiProfile — новый эталонный набор, созданный с помощью автоматизированного конвейера на основе prompted LLM, проверяемой веб-поиском. На основе анализа 4 миллионов ответов от 13 языковых моделей мы обнаружили, что кодирование в передовых моделях на нашем эталоне практически насыщено: GPT-5 и Gemini-3 кодируют 95–98% фактов. Однако воспроизведение остается основным узким местом: многие ошибки, ранее приписывавшиеся отсутствию знаний, на самом деле вызваны сбоями доступа к ним. Эти сбои систематичны и непропорционально сильно затрагивают факты из «длинного хвоста» и обратные вопросы. Наконец, мы показываем, что «размышление» улучшает воспроизведение и может восстановить значительную долю сбоев, что указывает на то, что будущие успехи могут в меньшей степени зависеть от масштабирования и в большей — от методов, улучшающих использование моделями уже закодированной информации.

English

Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.

Пустые полки или потерянные ключи? Воспроизведение — это узкое место параметрической фактической точности

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Аннотация

Support