ChatPaper.aiChatPaper

SimpleQA 검증: 파라메트릭 지식을 측정하기 위한 신뢰할 수 있는 사실성 벤치마크

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

September 9, 2025
저자: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI

초록

OpenAI의 SimpleQA를 기반으로 대규모 언어 모델(LLM)의 단문 사실성 평가를 위한 1,000개 프롬프트 벤치마크인 SimpleQA Verified를 소개합니다. 이 벤치마크는 OpenAI의 벤치마크에서 발견되는 노이즈 및 잘못된 레이블, 주제 편향, 질문 중복 등의 중요한 한계를 해결합니다. SimpleQA Verified는 중복 제거, 주제 균형 조정, 소스 조정을 포함한 엄격한 다단계 필터링 과정을 통해 더 신뢰할 수 있고 도전적인 평가 세트를 생성했으며, 자동 평가 프롬프트도 개선했습니다. 이 새로운 벤치마크에서 Gemini 2.5 Pro는 55.6의 최첨단 F1 점수를 달성하며 GPT-5를 포함한 다른 최신 모델들을 능가했습니다. 이 연구는 파라메트릭 모델의 사실성에서 진정한 진전을 추적하고 환각 현상을 완화하기 위한 더 높은 충실도의 도구를 연구 커뮤니티에 제공합니다. 벤치마크 데이터셋, 평가 코드, 리더보드는 다음에서 확인할 수 있습니다: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
PDF103September 10, 2025