ChatPaper.aiChatPaper

SimpleQA Verified: Een Betrouwbaar Feitelijkheidsbenchmark om Parametrische Kennis te Meten

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

September 9, 2025
Auteurs: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI

Samenvatting

We introduceren SimpleQA Verified, een benchmark van 1.000 prompts voor het evalueren van de feitelijke nauwkeurigheid van korte antwoorden van Large Language Models (LLM), gebaseerd op OpenAI's SimpleQA. Het adresseert kritieke beperkingen in OpenAI's benchmark, waaronder ruis en incorrecte labels, thematische vooroordelen en redundantie van vragen. SimpleQA Verified is ontwikkeld via een rigoureus meerfasen filterproces, waarbij deduplicatie, thematische balancering en bronafstemming zijn toegepast om een betrouwbaarder en uitdagender evaluatieset te creëren, naast verbeteringen in de autorater-prompt. Op deze nieuwe benchmark behaalt Gemini 2.5 Pro een state-of-the-art F1-score van 55.6, waarmee het andere toonaangevende modellen, waaronder GPT-5, overtreft. Dit werk biedt de onderzoeksgemeenschap een hoger-fidelity instrument om echte vooruitgang in de feitelijke nauwkeurigheid van parametrische modellen te volgen en hallucinaties te verminderen. De benchmarkdataset, evaluatiecode en leaderboard zijn beschikbaar op: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
PDF143September 10, 2025