ChatPaper.aiChatPaper

La Classifica FACTS: Un Benchmark Completo per la Veridicità dei Modelli Linguistici di Grande Dimensione

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

December 11, 2025
Autori: Aileen Cheng, Alon Jacovi, Amir Globerson, Ben Golan, Charles Kwong, Chris Alberti, Connie Tao, Eyal Ben-David, Gaurav Singh Tomar, Lukas Haas, Yonatan Bitton, Adam Bloniarz, Aijun Bai, Andrew Wang, Anfal Siddiqui, Arturo Bajuelos Castillo, Aviel Atias, Chang Liu, Corey Fry, Daniel Balle, Deepanway Ghosal, Doron Kukliansky, Dror Marcus, Elena Gribovskaya, Eran Ofek, Honglei Zhuang, Itay Laish, Jan Ackermann, Lily Wang, Meg Risdal, Megan Barnes, Michael Fink, Mohamed Amin, Moran Ambar, Natan Potikha, Nikita Gupta, Nitzan Katz, Noam Velan, Ofir Roval, Ori Ram, Polina Zablotskaia, Prathamesh Bang, Priyanka Agrawal, Rakesh Ghiya, Sanjay Ganapathy, Simon Baumgartner, Sofia Erell, Sushant Prakash, Thibault Sellam, Vikram Rao, Xuanhui Wang, Yaroslav Akulov, Yulong Yang, Zhen Yang, Zhixin Lai, Zhongru Wu, Anca Dragan, Avinatan Hassidim, Fernando Pereira, Slav Petrov, Srinivasan Venkatachary, Tulsee Doshi, Yossi Matias, Sasha Goldshtein, Dipanjan Das
cs.AI

Abstract

Introduciamo The FACTS Leaderboard, una suite di classifiche online e un insieme associato di benchmark che valuta in modo completo la capacità dei modelli linguistici di generare testi fattualmente accurati in diversi scenari. La suite fornisce una misura olistica della factualità aggregando le prestazioni dei modelli su quattro distinte sotto-classifiche: (1) FACTS Multimodale, che misura la factualità delle risposte a domande basate su immagini; (2) FACTS Parametrico, che valuta la conoscenza enciclopedica dei modelli facendo rispondere a domande fattuali a libro chiuso, attingendo dai parametri interni; (3) FACTS Ricerca, che valuta la factualità in scenari di ricerca di informazioni, in cui il modello deve utilizzare un'API di ricerca; e (4) FACTS Grounding (v2), che valuta se le risposte in forma estesa sono basate sui documenti forniti, caratterizzato da modelli di valutazione significativamente migliorati. Ogni sotto-classifica utilizza modelli di valutazione automatici per assegnare un punteggio alle risposte del modello, e il punteggio finale della suite è una media dei quattro componenti, progettata per fornire una valutazione robusta ed equilibrata della factualità complessiva di un modello. La suite FACTS Leaderboard sarà mantenuta attivamente e conterrà sia divisioni pubbliche che private per consentire la partecipazione esterna proteggendo al contempo la sua integrità. È disponibile all'indirizzo https://www.kaggle.com/benchmarks/google/facts.
English
We introduce The FACTS Leaderboard, an online leaderboard suite and associated set of benchmarks that comprehensively evaluates the ability of language models to generate factually accurate text across diverse scenarios. The suite provides a holistic measure of factuality by aggregating the performance of models on four distinct sub-leaderboards: (1) FACTS Multimodal, which measures the factuality of responses to image-based questions; (2) FACTS Parametric, which assesses models' world knowledge by answering closed-book factoid questions from internal parameters; (3) FACTS Search, which evaluates factuality in information-seeking scenarios, where the model must use a search API; and (4) FACTS Grounding (v2), which evaluates whether long-form responses are grounded in provided documents, featuring significantly improved judge models. Each sub-leaderboard employs automated judge models to score model responses, and the final suite score is an average of the four components, designed to provide a robust and balanced assessment of a model's overall factuality. The FACTS Leaderboard Suite will be actively maintained, containing both public and private splits to allow for external participation while guarding its integrity. It can be found at https://www.kaggle.com/benchmarks/google/facts .
PDF31December 13, 2025