ChatPaper.aiChatPaper

SimpleQA Verified: Надежный эталон фактической точности для оценки параметрических знаний

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

September 9, 2025
Авторы: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das
cs.AI

Аннотация

Мы представляем SimpleQA Verified — эталонный набор из 1000 запросов для оценки фактической точности кратких ответов крупных языковых моделей (LLM), основанный на SimpleQA от OpenAI. Этот набор устраняет ключевые ограничения эталона OpenAI, включая зашумлённые и некорректные метки, тематические предубеждения и избыточность вопросов. SimpleQA Verified был создан с помощью строгого многоэтапного процесса фильтрации, включающего дедупликацию, балансировку тем и согласование источников, что позволило получить более надёжный и сложный набор для оценки, а также улучшить подсказки для автоматической оценки. На этом новом эталоне модель Gemini 2.5 Pro достигает передового показателя F1-меры в 55.6, превосходя другие передовые модели, включая GPT-5. Эта работа предоставляет исследовательскому сообществу более точный инструмент для отслеживания реального прогресса в фактической точности параметрических моделей и снижения галлюцинаций. Набор данных, код для оценки и таблица лидеров доступны по адресу: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
English
We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
PDF93September 10, 2025