Leere Regale oder verlorene Schlüssel? Der Abruf ist der Engpass für parametrische Faktentreue

Zusammenfassung

Standardmäßige Faktizitätsbewertungen von LLMs behandeln alle Fehler gleich und verdecken, ob Fehler auf fehlendem Wissen (leere Regale) oder auf eingeschränktem Zugriff auf kodierte Fakten (verlorene Schlüssel) beruhen. Wir schlagen ein Verhaltensframework vor, das faktisches Wissen auf der Ebene von Fakten und nicht von Fragen profiliert, indem es jeden Fakt danach charakterisiert, ob er kodiert ist und anschließend danach, wie zugänglich er ist: nicht abrufbar, direkt abrufbar oder nur mit Inferenzzeit-Berechnung (Denken) abrufbar. Um ein solches Profiling zu ermöglichen, führen wir WikiProfile ein, einen neuen Benchmark, der über eine automatisierte Pipeline mit einem an Websuche gekoppelten, geprompten LLM erstellt wird. Anhand von 4 Millionen Antworten von 13 LLMs stellen wir fest, dass die Kodierung in führenden Modellen für unseren Benchmark nahezu gesättigt ist; GPT-5 und Gemini-3 kodieren 95–98 % der Fakten. Dennoch bleibt der Abruf ein Hauptengpass: Viele Fehler, die zuvor fehlendem Wissen zugeschrieben wurden, rühren stattdessen von Zugriffsfehlern her. Diese Fehler sind systematisch und betreffen überproportional Long-Tail-Fakten und umgekehrte Fragen. Schließlich zeigen wir, dass Denken den Abruf verbessert und einen beträchtlichen Teil der Fehler beheben kann, was darauf hindeutet, dass zukünftige Fortschritte weniger auf Skalierung, sondern mehr auf Methoden beruhen könnten, die verbessern, wie Modelle das bereits Kodierte nutzen.

English

Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.

Leere Regale oder verlorene Schlüssel? Der Abruf ist der Engpass für parametrische Faktentreue

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Zusammenfassung

Support