GPT-Fathom : Évaluation des modèles de langage de grande taille pour décrypter la trajectoire évolutive vers GPT-4 et au-delà
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond
September 28, 2023
papers.authors: Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang
cs.AI
papers.abstract
Avec l'avancée rapide des grands modèles de langage (LLM), il existe un besoin pressant d'une suite d'évaluation complète pour mesurer leurs capacités et leurs limites. Les classements existants des LLM font souvent référence aux scores rapportés dans d'autres articles sans paramètres et invites cohérents, ce qui peut involontairement encourager la sélection de paramètres et d'invites favoris pour obtenir de meilleurs résultats. Dans ce travail, nous présentons GPT-Fathom, une suite d'évaluation open-source et reproductible pour les LLM, construite sur OpenAI Evals. Nous évaluons systématiquement plus de 10 LLM leaders ainsi que les modèles hérités d'OpenAI sur plus de 20 benchmarks soigneusement sélectionnés, couvrant 7 catégories de capacités, le tout dans des paramètres alignés. Notre étude rétrospective sur les modèles antérieurs d'OpenAI offre des insights précieux sur le chemin évolutif de GPT-3 à GPT-4. Actuellement, la communauté est impatiente de comprendre comment GPT-3 s'est progressivement amélioré pour devenir GPT-4, y compris des détails techniques tels que l'impact de l'ajout de données de code sur la capacité de raisonnement des LLM, les aspects des capacités des LLM qui peuvent être améliorés par SFT et RLHF, le coût de l'alignement, etc. Notre analyse éclaire nombre de ces questions, visant à améliorer la transparence des LLM avancés.
English
With the rapid advancement of large language models (LLMs), there is a
pressing need for a comprehensive evaluation suite to assess their capabilities
and limitations. Existing LLM leaderboards often reference scores reported in
other papers without consistent settings and prompts, which may inadvertently
encourage cherry-picking favored settings and prompts for better results. In
this work, we introduce GPT-Fathom, an open-source and reproducible LLM
evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+
leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across
7 capability categories, all under aligned settings. Our retrospective study on
OpenAI's earlier models offers valuable insights into the evolutionary path
from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3
progressively improves to GPT-4, including technical details like whether
adding code data improves LLM's reasoning capability, which aspects of LLM
capability can be improved by SFT and RLHF, how much is the alignment tax, etc.
Our analysis sheds light on many of these questions, aiming to improve the
transparency of advanced LLMs.