Dec 11
ByAileen Cheng, Alon Jacovi, Amir Globerson, Ben Golan, Charles Kwong, Chris Alberti, Connie Tao, Eyal Ben-David, Gaurav Singh Tomar, Lukas Haas, Yonatan Bitton, Adam Bloniarz, Aijun Bai, Andrew Wang, Anfal Siddiqui, Arturo Bajuelos Castillo, Aviel Atias, Chang Liu, Corey Fry, Daniel Balle, Deepanway Ghosal, Doron Kukliansky, Dror Marcus, Elena Gribovskaya, Eran Ofek, Honglei Zhuang, Itay Laish, Jan Ackermann, Lily Wang, Meg Risdal, Megan Barnes, Michael Fink, Mohamed Amin, Moran Ambar, Natan Potikha, Nikita Gupta, Nitzan Katz, Noam Velan, Ofir Roval, Ori Ram, Polina Zablotskaia, Prathamesh Bang, Priyanka Agrawal, Rakesh Ghiya, Sanjay Ganapathy, Simon Baumgartner, Sofia Erell, Sushant Prakash, Thibault Sellam, Vikram Rao, Xuanhui Wang, Yaroslav Akulov, Yulong Yang, Zhen Yang, Zhixin Lai, Zhongru Wu, Anca Dragan, Avinatan Hassidim, Fernando Pereira, Slav Petrov, Srinivasan Venkatachary, Tulsee Doshi, Yossi Matias, Sasha Goldshtein, Dipanjan Das
Nous prĂ©sentons le classement FACTS, une suite de classements en ligne et un ensemble de benchmarks associĂ©s qui Ă©valuent de maniĂšre exhaustive la capacitĂ© des modĂšles de langage Ă gĂ©nĂ©rer un texte factuellement exact dans divers scĂ©narios. La suite fournit une mesure holistique de la factualitĂ© en agrĂ©geant les performances des modĂšles sur quatre sous-classements distincts : (1) FACTS Multimodal, qui mesure la factualitĂ© des rĂ©ponses Ă des questions basĂ©es sur des images ; (2) FACTS Parametric, qui Ă©value les connaissances gĂ©nĂ©rales des modĂšles en rĂ©pondant Ă des questions factuelles en livre fermĂ© Ă partir de leurs paramĂštres internes ; (3) FACTS Search, qui Ă©value la factualitĂ© dans des scĂ©narios de recherche d'information, oĂč le modĂšle doit utiliser une API de recherche ; et (4) FACTS Grounding (v2), qui Ă©value si les rĂ©ponses long-forme sont ancrĂ©es dans des documents fournis, avec des modĂšles Ă©valuateurs considĂ©rablement amĂ©liorĂ©s. Chaque sous-classement utilise des modĂšles Ă©valuateurs automatisĂ©s pour noter les rĂ©ponses des modĂšles, et le score final de la suite est une moyenne des quatre composantes, conçue pour fournir une Ă©valuation robuste et Ă©quilibrĂ©e de la factualitĂ© globale d'un modĂšle. La suite de classements FACTS sera activement maintenue, contenant Ă la fois des divisions publiques et privĂ©es pour permettre une participation externe tout en protĂ©geant son intĂ©gritĂ©. Elle est accessible Ă l'adresse https://www.kaggle.com/benchmarks/google/facts.