ChatPaper.aiChatPaper

SimpleQA Verified: Ein zuverlässiges Benchmark für Faktizität zur Messung parametrischen Wissens

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

September 9, 2025
papers.authors: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI

papers.abstract

Wir stellen SimpleQA Verified vor, einen Benchmark mit 1.000 Prompts zur Bewertung der Faktizität von Large Language Models (LLMs) in Kurzform, basierend auf OpenAIs SimpleQA. Es adressiert kritische Einschränkungen im Benchmark von OpenAI, darunter verrauschte und falsche Labels, thematische Verzerrungen und redundante Fragen. SimpleQA Verified wurde durch einen strengen mehrstufigen Filterprozess erstellt, der Deduplizierung, Themenausgleich und Quellenabgleich umfasst, um einen zuverlässigeren und anspruchsvolleren Evaluationsdatensatz zu erstellen, zusammen mit Verbesserungen im Autorater-Prompt. Auf diesem neuen Benchmark erreicht Gemini 2.5 Pro einen state-of-the-art F1-Score von 55,6 und übertrifft damit andere führende Modelle, einschließlich GPT-5. Diese Arbeit bietet der Forschungsgemeinschaft ein hochwertigeres Werkzeug, um echte Fortschritte in der Faktizität parametrischer Modelle zu verfolgen und Halluzinationen zu reduzieren. Der Benchmark-Datensatz, der Evaluationscode und die Bestenliste sind verfügbar unter: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
PDF103September 10, 2025