ChatPaper.aiChatPaper

SimpleQA Vérifié : Un Benchmark de Factualité Fiable pour Mesurer les Connaissances Paramétriques

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

September 9, 2025
papers.authors: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI

papers.abstract

Nous présentons SimpleQA Verified, un benchmark de 1 000 prompts pour évaluer la factualité à court terme des modèles de langage de grande taille (LLM) basé sur SimpleQA d'OpenAI. Il résout des limitations critiques du benchmark d'OpenAI, notamment des étiquettes bruyantes et incorrectes, des biais thématiques et une redondance des questions. SimpleQA Verified a été créé grâce à un processus de filtrage rigoureux en plusieurs étapes, incluant la déduplication, l'équilibrage des sujets et la réconciliation des sources, pour produire un ensemble d'évaluation plus fiable et plus exigeant, ainsi que des améliorations dans le prompt de l'auto-évaluateur. Sur ce nouveau benchmark, Gemini 2.5 Pro atteint un score F1 de pointe de 55,6, surpassant d'autres modèles de pointe, y compris GPT-5. Ce travail fournit à la communauté de recherche un outil de plus haute fidélité pour suivre les progrès réels en matière de factualité des modèles paramétriques et pour atténuer les hallucinations. Le jeu de données du benchmark, le code d'évaluation et le classement sont disponibles à l'adresse suivante : https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
PDF143September 10, 2025