ChatPaper.aiChatPaper

SimpleQA Verificado: Un punto de referencia confiable de factualidad para medir el conocimiento paramétrico

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

September 9, 2025
Autores: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI

Resumen

Presentamos SimpleQA Verified, un benchmark de 1,000 prompts para evaluar la factualidad en respuestas breves de Modelos de Lenguaje a Gran Escala (LLM) basado en SimpleQA de OpenAI. Este aborda limitaciones críticas del benchmark de OpenAI, incluyendo etiquetas ruidosas e incorrectas, sesgos temáticos y redundancia en las preguntas. SimpleQA Verified fue creado mediante un riguroso proceso de filtrado en múltiples etapas que involucra desduplicación, balanceo temático y reconciliación de fuentes, produciendo un conjunto de evaluación más confiable y desafiante, junto con mejoras en el prompt del autorater. En este nuevo benchmark, Gemini 2.5 Pro alcanza un puntaje F1 de vanguardia de 55.6, superando a otros modelos frontera, incluyendo GPT-5. Este trabajo proporciona a la comunidad de investigación una herramienta de mayor fidelidad para rastrear el progreso genuino en la factualidad de modelos paramétricos y mitigar las alucinaciones. El conjunto de datos del benchmark, el código de evaluación y el leaderboard están disponibles en: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
PDF93September 10, 2025