Étagères vides ou clés perdues ? Le rappel est le goulot d'étranglement de la véracité factuelle paramétrique

Résumé

Les évaluations standards de la factualité des LLM traitent toutes les erreurs de manière identique, occultant la question de savoir si les échecs proviennent d'un manque de connaissances (étagères vides) ou d'un accès limité aux faits encodés (clés perdues). Nous proposons un cadre comportemental qui profile les connaissances factuelles au niveau des faits plutôt que des questions, caractérisant chaque fait selon qu'il est encodé ou non, puis selon son accessibilité : impossible à rappeler, pouvant être rappelé directement, ou ne pouvant être rappelé qu'avec un calcul à l'inférence (réflexion). Pour soutenir un tel profilage, nous introduisons WikiProfile, un nouveau benchmark construit via un pipeline automatisé utilisant un LLM sollicité et fondé sur une recherche web. Sur 4 millions de réponses provenant de 13 LLM, nous constatons que l'encodage est quasi saturé dans les modèles de pointe sur notre benchmark, GPT-5 et Gemini-3 encodant 95 à 98 % des faits. Cependant, le rappel reste un goulot d'étranglement majeur : de nombreuses erreurs précédemment attribuées à un manque de connaissances résultent en réalité d'échecs d'accès à ces dernières. Ces échecs sont systématiques et affectent de manière disproportionnée les faits de la longue traîne et les questions inversées. Enfin, nous montrons que la réflexion améliore le rappel et peut récupérer une fraction substantielle des échecs, indiquant que les gains futurs pourraient moins dépendre de la mise à l'échelle et davantage de méthodes améliorant la façon dont les modèles utilisent ce qu'ils encodent déjà.

English

Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.

Étagères vides ou clés perdues ? Le rappel est le goulot d'étranglement de la véracité factuelle paramétrique

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Résumé

Support