Lege planken of verloren sleutels? Het ophalen van informatie is de bottleneck voor parametrische feitelijkheid.

Samenvatting

Standaard feitelijkheidsevaluaties van LLM's behandelen alle fouten als gelijkwaardig, waardoor onduidelijk blijft of fouten voortkomen uit ontbrekende kennis ('lege planken') of uit beperkte toegang tot gecodeerde feiten ('verloren sleutels'). Wij stellen een gedragsraamwerk voor dat feitelijke kennis profileert op het niveau van feiten in plaats van vragen, waarbij elk feit wordt gekarakteriseerd door of het is gecodeerd, en vervolgens door hoe toegankelijk het is: niet kan worden opgehaald, direct kan worden opgehaald, of alleen kan worden opgehaald met berekeningen tijdens de inferentie ('denken'). Om dergelijke profilering te ondersteunen, introduceren we WikiProfile, een nieuwe benchmark die is geconstrueerd via een geautomatiseerde pijplijn met een geprompte LLM ondersteund door webzoekopdrachten. Uit meer dan 4 miljoen antwoorden van 13 LLM's blijkt dat codering bij topmodellen op onze benchmark bijna verzadigd is, waarbij GPT-5 en Gemini-3 95-98% van de feiten coderen. Toegankelijkheid blijft echter een grote bottleneck: veel fouten die voorheen werden toegeschreven aan ontbrekende kennis, blijken voort te komen uit het niet kunnen toegang krijgen tot die kennis. Deze fouten zijn systematisch en treffen onevenredig vaak feiten uit de lange staart en omgekeerde vragen. Ten slotte tonen we aan dat denken de toegankelijkheid verbetert en een aanzienlijk deel van de fouten kan herstellen, wat aangeeft dat toekomstige winst mogelijk minder afhangt van schaalvergroting en meer van methoden die verbeteren hoe modellen gebruikmaken van wat ze al gecoderd hebben.

English

Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.

Lege planken of verloren sleutels? Het ophalen van informatie is de bottleneck voor parametrische feitelijkheid.

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Samenvatting

Support