SimpleQA Verified: Un Benchmark di Fattualità Affidabile per Misurare la Conoscenza Parametrica
SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge
September 9, 2025
Autori: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI
Abstract
Presentiamo SimpleQA Verified, un benchmark di 1.000 prompt per valutare la fattualità in forma breve dei Modelli Linguistici di Grande Dimensione (LLM) basato su SimpleQA di OpenAI. Questo strumento affronta limitazioni critiche del benchmark di OpenAI, tra cui etichette rumorose e imprecise, bias tematici e ridondanza delle domande. SimpleQA Verified è stato creato attraverso un rigoroso processo di filtraggio in più fasi, che include deduplicazione, bilanciamento tematico e riconciliazione delle fonti, per produrre un set di valutazione più affidabile e impegnativo, insieme a miglioramenti nel prompt dell'autorater. Su questo nuovo benchmark, Gemini 2.5 Pro raggiunge un punteggio F1 all'avanguardia di 55.6, superando altri modelli di frontiera, incluso GPT-5. Questo lavoro fornisce alla comunità di ricerca uno strumento di maggiore fedeltà per monitorare i progressi genuini nella fattualità dei modelli parametrici e per mitigare le allucinazioni. Il dataset del benchmark, il codice di valutazione e la classifica sono disponibili al seguente indirizzo: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large
Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It
addresses critical limitations in OpenAI's benchmark, including noisy and
incorrect labels, topical biases, and question redundancy. SimpleQA Verified
was created through a rigorous multi-stage filtering process involving
de-duplication, topic balancing, and source reconciliation to produce a more
reliable and challenging evaluation set, alongside improvements in the
autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a
state-of-the-art F1-score of 55.6, outperforming other frontier models,
including GPT-5. This work provides the research community with a
higher-fidelity tool to track genuine progress in parametric model factuality
and to mitigate hallucinations. The benchmark dataset, evaluation code, and
leaderboard are available at:
https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.