SimpleQA Verificado: Un punto de referencia confiable de factualidad para medir el conocimiento paramétrico
SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge
September 9, 2025
Autores: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI
Resumen
Presentamos SimpleQA Verified, un benchmark de 1,000 prompts para evaluar la factualidad en respuestas breves de Modelos de Lenguaje a Gran Escala (LLM) basado en SimpleQA de OpenAI. Este aborda limitaciones críticas del benchmark de OpenAI, incluyendo etiquetas ruidosas e incorrectas, sesgos temáticos y redundancia en las preguntas. SimpleQA Verified fue creado mediante un riguroso proceso de filtrado en múltiples etapas que involucra desduplicación, balanceo temático y reconciliación de fuentes, produciendo un conjunto de evaluación más confiable y desafiante, junto con mejoras en el prompt del autorater. En este nuevo benchmark, Gemini 2.5 Pro alcanza un puntaje F1 de vanguardia de 55.6, superando a otros modelos frontera, incluyendo GPT-5. Este trabajo proporciona a la comunidad de investigación una herramienta de mayor fidelidad para rastrear el progreso genuino en la factualidad de modelos paramétricos y mitigar las alucinaciones. El conjunto de datos del benchmark, el código de evaluación y el leaderboard están disponibles en: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large
Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It
addresses critical limitations in OpenAI's benchmark, including noisy and
incorrect labels, topical biases, and question redundancy. SimpleQA Verified
was created through a rigorous multi-stage filtering process involving
de-duplication, topic balancing, and source reconciliation to produce a more
reliable and challenging evaluation set, alongside improvements in the
autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a
state-of-the-art F1-score of 55.6, outperforming other frontier models,
including GPT-5. This work provides the research community with a
higher-fidelity tool to track genuine progress in parametric model factuality
and to mitigate hallucinations. The benchmark dataset, evaluation code, and
leaderboard are available at:
https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.