FACTSリーダーボード:大規模言語モデルの事実性に関する包括的ベンチマーク
The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality
December 11, 2025
著者: Aileen Cheng, Alon Jacovi, Amir Globerson, Ben Golan, Charles Kwong, Chris Alberti, Connie Tao, Eyal Ben-David, Gaurav Singh Tomar, Lukas Haas, Yonatan Bitton, Adam Bloniarz, Aijun Bai, Andrew Wang, Anfal Siddiqui, Arturo Bajuelos Castillo, Aviel Atias, Chang Liu, Corey Fry, Daniel Balle, Deepanway Ghosal, Doron Kukliansky, Dror Marcus, Elena Gribovskaya, Eran Ofek, Honglei Zhuang, Itay Laish, Jan Ackermann, Lily Wang, Meg Risdal, Megan Barnes, Michael Fink, Mohamed Amin, Moran Ambar, Natan Potikha, Nikita Gupta, Nitzan Katz, Noam Velan, Ofir Roval, Ori Ram, Polina Zablotskaia, Prathamesh Bang, Priyanka Agrawal, Rakesh Ghiya, Sanjay Ganapathy, Simon Baumgartner, Sofia Erell, Sushant Prakash, Thibault Sellam, Vikram Rao, Xuanhui Wang, Yaroslav Akulov, Yulong Yang, Zhen Yang, Zhixin Lai, Zhongru Wu, Anca Dragan, Avinatan Hassidim, Fernando Pereira, Slav Petrov, Srinivasan Venkatachary, Tulsee Doshi, Yossi Matias, Sasha Goldshtein, Dipanjan Das
cs.AI
要旨
FACTSリーダーボードを紹介します。これは、オンラインリーダーボードスイートおよび関連ベンチマーク群であり、様々なシナリオにわたって言語モデルが事実に基づいた正確なテキストを生成する能力を包括的に評価します。本スイートは、4つの異なるサブリーダーボードにおけるモデルの性能を集約することで、事実性に関する総合的な測定を提供します:(1) **FACTS Multimodal** - 画像に基づく質問への応答の事実性を測定、(2) **FACTS Parametric** - 内部パラメータから閉じた本形式の知識質問に答えることでモデルの世界知識を評価、(3) **FACTS Search** - モデルが検索APIを利用しなければならない情報探索シナリオにおける事実性を評価、(4) **FACTS Grounding (v2)** - 長文応答が提供された文書に基づいているかどうかを評価し、大幅に改善された判定モデルを特徴とします。各サブリーダーボードは自動判定モデルを用いてモデルの応答を採点し、最終的なスイートスコアはこれら4要素の平均値であり、モデルの全体的な事実性に対する堅牢でバランスの取れた評価を提供するように設計されています。FACTSリーダーボードスイートは積極的に維持され、外部からの参加を可能にしつつその完全性を守るために、公開用と非公開用のデータ分割を含みます。詳細は https://www.kaggle.com/benchmarks/google/facts でご覧いただけます。
English
We introduce The FACTS Leaderboard, an online leaderboard suite and associated set of benchmarks that comprehensively evaluates the ability of language models to generate factually accurate text across diverse scenarios. The suite provides a holistic measure of factuality by aggregating the performance of models on four distinct sub-leaderboards: (1) FACTS Multimodal, which measures the factuality of responses to image-based questions; (2) FACTS Parametric, which assesses models' world knowledge by answering closed-book factoid questions from internal parameters; (3) FACTS Search, which evaluates factuality in information-seeking scenarios, where the model must use a search API; and (4) FACTS Grounding (v2), which evaluates whether long-form responses are grounded in provided documents, featuring significantly improved judge models. Each sub-leaderboard employs automated judge models to score model responses, and the final suite score is an average of the four components, designed to provide a robust and balanced assessment of a model's overall factuality. The FACTS Leaderboard Suite will be actively maintained, containing both public and private splits to allow for external participation while guarding its integrity. It can be found at https://www.kaggle.com/benchmarks/google/facts .