¿Estantes vacíos o llaves perdidas? La recuperación es el cuello de botella para la factualidad paramétrica

Resumen

Las evaluaciones estándar de factualidad en LLMs tratan todos los errores por igual, oscureciendo si las fallas surgen de conocimiento faltante (estantes vacíos) o de acceso limitado a hechos codificados (llaves perdidas). Proponemos un marco conductual que perfila el conocimiento factual a nivel de hechos en lugar de preguntas, caracterizando cada hecho por si está codificado y luego por cuán accesible es: no puede ser recordado, puede ser recordado directamente, o solo puede ser recordado con computación en tiempo de inferencia (pensamiento). Para respaldar dicho perfilado, presentamos WikiProfile, un nuevo benchmark construido mediante una canalización automatizada con un LLM instruccionado y basado en búsqueda web. En 4 millones de respuestas de 13 LLMs, encontramos que la codificación está casi saturada en los modelos de vanguardia en nuestro benchmark, con GPT-5 y Gemini-3 codificando el 95-98% de los hechos. Sin embargo, el recuerdo sigue siendo un cuello de botella principal: muchos errores previamente atribuidos a conocimiento faltante en realidad se originan por fallas en acceder a él. Estas fallas son sistemáticas y afectan desproporcionadamente a los hechos de la larga cola y a las preguntas inversas. Finalmente, mostramos que el pensamiento mejora el recuerdo y puede recuperar una fracción sustancial de las fallas, indicando que las ganancias futuras pueden depender menos del escalamiento y más de métodos que mejoren cómo los modelos utilizan lo que ya codifican.

English

Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.

¿Estantes vacíos o llaves perdidas? La recuperación es el cuello de botella para la factualidad paramétrica

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Resumen

Support