ChatPaper.aiChatPaper

FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 포괄적 벤치마크

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

December 11, 2025
저자: Aileen Cheng, Alon Jacovi, Amir Globerson, Ben Golan, Charles Kwong, Chris Alberti, Connie Tao, Eyal Ben-David, Gaurav Singh Tomar, Lukas Haas, Yonatan Bitton, Adam Bloniarz, Aijun Bai, Andrew Wang, Anfal Siddiqui, Arturo Bajuelos Castillo, Aviel Atias, Chang Liu, Corey Fry, Daniel Balle, Deepanway Ghosal, Doron Kukliansky, Dror Marcus, Elena Gribovskaya, Eran Ofek, Honglei Zhuang, Itay Laish, Jan Ackermann, Lily Wang, Meg Risdal, Megan Barnes, Michael Fink, Mohamed Amin, Moran Ambar, Natan Potikha, Nikita Gupta, Nitzan Katz, Noam Velan, Ofir Roval, Ori Ram, Polina Zablotskaia, Prathamesh Bang, Priyanka Agrawal, Rakesh Ghiya, Sanjay Ganapathy, Simon Baumgartner, Sofia Erell, Sushant Prakash, Thibault Sellam, Vikram Rao, Xuanhui Wang, Yaroslav Akulov, Yulong Yang, Zhen Yang, Zhixin Lai, Zhongru Wu, Anca Dragan, Avinatan Hassidim, Fernando Pereira, Slav Petrov, Srinivasan Venkatachary, Tulsee Doshi, Yossi Matias, Sasha Goldshtein, Dipanjan Das
cs.AI

초록

FACTS 리더보드를 소개합니다. 이는 온라인 리더보드 제품군 및 관련 벤치마크 세트로, 다양한 시나리오에서 언어 모델이 사실적으로 정확한 텍스트를 생성하는 능력을 종합적으로 평가합니다. 본 제품군은 모델의 성능을 네 가지 별도 하위 리더보드에서 종합하여 사실성에 대한 전체적인 측정치를 제공합니다: (1) 이미지 기반 질문에 대한 응답의 사실성을 측정하는 FACTS 멀티모달, (2) 내부 매개변수에서 폐쇄형 사실 정보 질문에 답함으로써 모델의 세계 지식을 평가하는 FACTS 파라메트릭, (3) 모델이 검색 API를 사용해야 하는 정보 탐색 시나리오에서의 사실성을 평가하는 FACTS 검색, (4) 장문 응답이 제공된 문서에 기반을 두는지 평가하며 판단 모델이 크게 개선된 FACTS 기반(v2). 각 하위 리더보드는 자동화된 판단 모델을 사용하여 모델 응답을 채점하며, 최종 제품군 점수는 모델의 전체적인 사실성을 강력하고 균형 있게 평가하도록 설계된 네 구성 요소의 평균입니다. FACTS 리더보드 제품군은 지속적으로 관리되며, 외부 참여를 허용하면서도 무결성을 보호하기 위해 공개 및 비공개 분할 세트를 모두 포함합니다. https://www.kaggle.com/benchmarks/google/facts 에서 확인하실 수 있습니다.
English
We introduce The FACTS Leaderboard, an online leaderboard suite and associated set of benchmarks that comprehensively evaluates the ability of language models to generate factually accurate text across diverse scenarios. The suite provides a holistic measure of factuality by aggregating the performance of models on four distinct sub-leaderboards: (1) FACTS Multimodal, which measures the factuality of responses to image-based questions; (2) FACTS Parametric, which assesses models' world knowledge by answering closed-book factoid questions from internal parameters; (3) FACTS Search, which evaluates factuality in information-seeking scenarios, where the model must use a search API; and (4) FACTS Grounding (v2), which evaluates whether long-form responses are grounded in provided documents, featuring significantly improved judge models. Each sub-leaderboard employs automated judge models to score model responses, and the final suite score is an average of the four components, designed to provide a robust and balanced assessment of a model's overall factuality. The FACTS Leaderboard Suite will be actively maintained, containing both public and private splits to allow for external participation while guarding its integrity. It can be found at https://www.kaggle.com/benchmarks/google/facts .
PDF31December 13, 2025