Scaffali Vuoti o Chiavi Smarrite? Il Richiamo è il Collo di Bottiglia per la Fattualità Parametrica

Abstract

Le valutazioni standard di fattualità degli LLM trattano tutti gli errori allo stesso modo, oscurando se i fallimenti derivino da conoscenze mancanti (scaffali vuoti) o da accesso limitato a fatti codificati (chiavi smarrite). Proponiamo un framework comportamentale che analizza la conoscenza fattuale a livello di fatti piuttosto che di domande, caratterizzando ogni fatto in base alla sua codifica e alla sua accessibilità: non richiamabile, richiamabile direttamente, o richiamabile solo con calcolo al momento dell'inferenza (ragionamento). Per supportare questa profilazione, introduciamo WikiProfile, un nuovo benchmark costruito tramite una pipeline automatizzata con un LLM promptato ancorato alla ricerca web. Analizzando 4 milioni di risposte da 13 LLM, riscontriamo che la codifica è quasi saturata nei modelli all'avanguardia sul nostro benchmark, con GPT-5 e Gemini-3 che codificano il 95-98% dei fatti. Tuttavia, il richiamo rimane un collo di bottiglia principale: molti errori precedentemente attribuiti a conoscenze mancanti derivano invece da fallimenti nell'accesso a tali conoscenze. Questi fallimenti sono sistematici e colpiscono in modo sproporzionato i fatti di coda lunga e le domande inverse. Infine, dimostriamo che il ragionamento migliora il richiamo e può recuperare una frazione sostanziale dei fallimenti, indicando che i futuri progressi potrebbero dipendere meno dal scaling e più da metodi che migliorano come i modelli utilizzano ciò che già codificano.

English

Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.

Scaffali Vuoti o Chiavi Smarrite? Il Richiamo è il Collo di Bottiglia per la Fattualità Parametrica

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Abstract

Support