Prateiras Vazias ou Chaves Perdidas? A Recuperação É o Gargalo para a Factualidade Paramétrica

Resumo

As avaliações padrão de factualidade de LLMs tratam todos os erros da mesma forma, obscurecendo se as falhas surgem de conhecimento ausente (prateleiras vazias) ou de acesso limitado a fatos codificados (chaves perdidas). Propomos uma estrutura comportamental que perfila o conhecimento factual ao nível dos fatos, e não das perguntas, caracterizando cada fato por se está codificado e, em seguida, por quão acessível ele é: não pode ser recordado, pode ser recordado diretamente ou só pode ser recordado com computação em tempo de inferência (pensamento). Para suportar tal perfilamento, introduzimos o WikiProfile, um novo benchmark construído através de um pipeline automatizado com um LLM instruído (prompted) ancorado em buscas na web. Através de 4 milhões de respostas de 13 LLMs, descobrimos que a codificação está quase saturada nos modelos de fronteira em nosso benchmark, com GPT-4 e Gemini Ultra codificando 95–98% dos fatos. No entanto, a recordação permanece um grande gargalo: muitos erros anteriormente atribuídos a conhecimento ausente, na verdade, decorrem de falhas em acessá-lo. Essas falhas são sistemáticas e afetam desproporcionalmente fatos de cauda longa e perguntas reversas. Por fim, mostramos que o pensamento melhora a recordação e pode recuperar uma fração substancial das falhas, indicando que ganhos futuros podem depender menos de escalonamento (scaling) e mais de métodos que melhorem como os modelos utilizam o que já codificam.

English

Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.

Prateiras Vazias ou Chaves Perdidas? A Recuperação É o Gargalo para a Factualidade Paramétrica

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Resumo

Support