ChatPaper.aiChatPaper

SimpleQA Verificado: Um Benchmark Confiável de Factualidade para Medir Conhecimento Paramétrico

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

September 9, 2025
Autores: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI

Resumo

Apresentamos o SimpleQA Verified, um benchmark de 1.000 prompts para avaliar a factualidade de curto prazo em Modelos de Linguagem de Grande Escala (LLMs), baseado no SimpleQA da OpenAI. Ele aborda limitações críticas no benchmark da OpenAI, incluindo rótulos ruidosos e incorretos, vieses temáticos e redundância de perguntas. O SimpleQA Verified foi criado por meio de um rigoroso processo de filtragem em múltiplas etapas, envolvendo desduplicação, balanceamento de tópicos e reconciliação de fontes, para produzir um conjunto de avaliação mais confiável e desafiador, juntamente com melhorias no prompt do avaliador automático. Neste novo benchmark, o Gemini 2.5 Pro alcança um F1-score de ponta de 55,6, superando outros modelos de fronteira, incluindo o GPT-5. Este trabalho fornece à comunidade de pesquisa uma ferramenta de maior fidelidade para acompanhar o progresso genuíno na factualidade de modelos paramétricos e para mitigar alucinações. O conjunto de dados do benchmark, o código de avaliação e o leaderboard estão disponíveis em: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
PDF113September 10, 2025