SimpleQA Verified:パラメトリック知識を測定するための信頼性の高い事実性ベンチマーク
SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge
September 9, 2025
著者: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI
要旨
SimpleQA Verifiedを紹介します。これは、OpenAIのSimpleQAに基づいて大規模言語モデル(LLM)の短い形式の事実性を評価するための1,000プロンプトのベンチマークです。このベンチマークは、OpenAIのベンチマークにおけるノイズや誤ったラベル、トピックの偏り、質問の冗長性といった重要な制約を解決します。SimpleQA Verifiedは、重複排除、トピックのバランス調整、ソースの整合性を含む厳格な多段階フィルタリングプロセスを通じて作成され、より信頼性が高く挑戦的な評価セットを提供します。また、自動評価プロンプトの改善も行われました。この新しいベンチマークでは、Gemini 2.5 Proが55.6のF1スコアを達成し、GPT-5を含む他の最先端モデルを上回りました。この研究は、パラメトリックモデルの事実性における真の進歩を追跡し、幻覚を軽減するための高精度なツールを研究コミュニティに提供します。ベンチマークデータセット、評価コード、およびリーダーボードは以下で利用可能です:
https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large
Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It
addresses critical limitations in OpenAI's benchmark, including noisy and
incorrect labels, topical biases, and question redundancy. SimpleQA Verified
was created through a rigorous multi-stage filtering process involving
de-duplication, topic balancing, and source reconciliation to produce a more
reliable and challenging evaluation set, alongside improvements in the
autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a
state-of-the-art F1-score of 55.6, outperforming other frontier models,
including GPT-5. This work provides the research community with a
higher-fidelity tool to track genuine progress in parametric model factuality
and to mitigate hallucinations. The benchmark dataset, evaluation code, and
leaderboard are available at:
https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.