빈 선반일까, 잃어버린 열쇠일까? 파라메트릭 사실성의 병목 현상은 회상이다
Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality
February 15, 2026
저자: Nitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona
cs.AI
초록
LLM에 대한 기존 사실성 평가는 모든 오류를 동일하게 취급하여 실패가 지식 부재(빈 선반)에서 비롯된 것인지, 아니면 인코딩된 사실에 대한 접근성 한계(잃어버린 열쇠)에서 비롯된 것인지 모호하게 합니다. 본 연구에서는 질문 수준이 아닌 사실 수준에서 사실 지식을 프로파일링하는 행동 프레임워크를 제안합니다. 이 프레임워크는 각 사실이 인코딩되었는지 여부를 먼저 규정한 후, 접근 가능성(회상 불가, 직접 회상 가능, 추론 단계 계산(사고)을 통해서만 회상 가능)에 따라 특성을 분석합니다. 이러한 프로파일링을 지원하기 위해 웹 검색을 기반으로 한 LLM 프롬프트를 통해 자동화된 파이프라인으로 구성된 새로운 벤치마크인 WikiProfile을 소개합니다. 13개 LLM으로부터 수집된 400만 개의 응답을 분석한 결과, 최첨단 모델에서는 벤치마크 내 사실 인코딩이 거래 포화 상태에 이르러 GPT-5와 Gemini-3가 사실의 95~98%를 인코딩하는 것으로 나타났습니다. 그러나 회상은 여전히 주요 병목 현상입니다: 지식 부재로 귀결되었던 많은 오류가 실제로는 인코딩된 지식에 접근하지 못해 발생하는 경우가 많았습니다. 이러한 실패는 체계적으로 발생하며, 특히 롱테일 사실과 역방향 질문에서 불균형적으로 영향을 미칩니다. 마지막으로, 사고를 통해 회상률이 향상되고 실패 사례의 상당 부분을 회복할 수 있음을 보여주며, 이는 향후 성능 향상이 규모 확장보다는 모델이 이미 인코딩한 내용을 효과적으로 활용하는 방법 개선에 더 의존할 수 있음을 시사합니다.
English
Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.