Le Tableau de Bord FACTS : Un Référentiel Complet pour l'Évaluation de l'Exactitude Factuelle des Grands Modèles de Langage
The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality
December 11, 2025
papers.authors: Aileen Cheng, Alon Jacovi, Amir Globerson, Ben Golan, Charles Kwong, Chris Alberti, Connie Tao, Eyal Ben-David, Gaurav Singh Tomar, Lukas Haas, Yonatan Bitton, Adam Bloniarz, Aijun Bai, Andrew Wang, Anfal Siddiqui, Arturo Bajuelos Castillo, Aviel Atias, Chang Liu, Corey Fry, Daniel Balle, Deepanway Ghosal, Doron Kukliansky, Dror Marcus, Elena Gribovskaya, Eran Ofek, Honglei Zhuang, Itay Laish, Jan Ackermann, Lily Wang, Meg Risdal, Megan Barnes, Michael Fink, Mohamed Amin, Moran Ambar, Natan Potikha, Nikita Gupta, Nitzan Katz, Noam Velan, Ofir Roval, Ori Ram, Polina Zablotskaia, Prathamesh Bang, Priyanka Agrawal, Rakesh Ghiya, Sanjay Ganapathy, Simon Baumgartner, Sofia Erell, Sushant Prakash, Thibault Sellam, Vikram Rao, Xuanhui Wang, Yaroslav Akulov, Yulong Yang, Zhen Yang, Zhixin Lai, Zhongru Wu, Anca Dragan, Avinatan Hassidim, Fernando Pereira, Slav Petrov, Srinivasan Venkatachary, Tulsee Doshi, Yossi Matias, Sasha Goldshtein, Dipanjan Das
cs.AI
papers.abstract
Nous présentons le classement FACTS, une suite de classements en ligne et un ensemble de benchmarks associés qui évaluent de manière exhaustive la capacité des modèles de langage à générer un texte factuellement exact dans divers scénarios. La suite fournit une mesure holistique de la factualité en agrégeant les performances des modèles sur quatre sous-classements distincts : (1) FACTS Multimodal, qui mesure la factualité des réponses à des questions basées sur des images ; (2) FACTS Parametric, qui évalue les connaissances générales des modèles en répondant à des questions factuelles en livre fermé à partir de leurs paramètres internes ; (3) FACTS Search, qui évalue la factualité dans des scénarios de recherche d'information, où le modèle doit utiliser une API de recherche ; et (4) FACTS Grounding (v2), qui évalue si les réponses long-forme sont ancrées dans des documents fournis, avec des modèles évaluateurs considérablement améliorés. Chaque sous-classement utilise des modèles évaluateurs automatisés pour noter les réponses des modèles, et le score final de la suite est une moyenne des quatre composantes, conçue pour fournir une évaluation robuste et équilibrée de la factualité globale d'un modèle. La suite de classements FACTS sera activement maintenue, contenant à la fois des divisions publiques et privées pour permettre une participation externe tout en protégeant son intégrité. Elle est accessible à l'adresse https://www.kaggle.com/benchmarks/google/facts.
English
We introduce The FACTS Leaderboard, an online leaderboard suite and associated set of benchmarks that comprehensively evaluates the ability of language models to generate factually accurate text across diverse scenarios. The suite provides a holistic measure of factuality by aggregating the performance of models on four distinct sub-leaderboards: (1) FACTS Multimodal, which measures the factuality of responses to image-based questions; (2) FACTS Parametric, which assesses models' world knowledge by answering closed-book factoid questions from internal parameters; (3) FACTS Search, which evaluates factuality in information-seeking scenarios, where the model must use a search API; and (4) FACTS Grounding (v2), which evaluates whether long-form responses are grounded in provided documents, featuring significantly improved judge models. Each sub-leaderboard employs automated judge models to score model responses, and the final suite score is an average of the four components, designed to provide a robust and balanced assessment of a model's overall factuality. The FACTS Leaderboard Suite will be actively maintained, containing both public and private splits to allow for external participation while guarding its integrity. It can be found at https://www.kaggle.com/benchmarks/google/facts .