GPT-Fathom: Het benchmarken van grote taalmodellen om het evolutionaire pad naar GPT-4 en daarna te ontcijferen
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond
September 28, 2023
Auteurs: Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang
cs.AI
Samenvatting
Met de snelle vooruitgang van grote taalmodellen (LLM's) is er een dringende behoefte aan een uitgebreide evaluatiesuite om hun mogelijkheden en beperkingen te beoordelen. Bestaande LLM-ranglijsten verwijzen vaak naar scores die in andere papers zijn gerapporteerd zonder consistente instellingen en prompts, wat onbedoeld het selectief kiezen van favoriete instellingen en prompts voor betere resultaten kan aanmoedigen. In dit werk introduceren we GPT-Fathom, een open-source en reproduceerbare LLM-evaluatiesuite gebouwd bovenop OpenAI Evals. We evalueren systematisch 10+ toonaangevende LLM's evenals OpenAI's oudere modellen op 20+ gecureerde benchmarks in 7 vaardigheidscategorieën, allemaal onder gelijkgestelde instellingen. Onze retrospectieve studie van OpenAI's eerdere modellen biedt waardevolle inzichten in het evolutionaire pad van GPT-3 naar GPT-4. Momenteel is de gemeenschap erg benieuwd naar hoe GPT-3 geleidelijk verbetert naar GPT-4, inclusief technische details zoals of het toevoegen van codedata de redeneervaardigheid van LLM's verbetert, welke aspecten van LLM-vaardigheden kunnen worden verbeterd door SFT en RLHF, hoe hoog de alignment tax is, enz. Onze analyse werpt licht op veel van deze vragen, met als doel de transparantie van geavanceerde LLM's te verbeteren.
English
With the rapid advancement of large language models (LLMs), there is a
pressing need for a comprehensive evaluation suite to assess their capabilities
and limitations. Existing LLM leaderboards often reference scores reported in
other papers without consistent settings and prompts, which may inadvertently
encourage cherry-picking favored settings and prompts for better results. In
this work, we introduce GPT-Fathom, an open-source and reproducible LLM
evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+
leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across
7 capability categories, all under aligned settings. Our retrospective study on
OpenAI's earlier models offers valuable insights into the evolutionary path
from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3
progressively improves to GPT-4, including technical details like whether
adding code data improves LLM's reasoning capability, which aspects of LLM
capability can be improved by SFT and RLHF, how much is the alignment tax, etc.
Our analysis sheds light on many of these questions, aiming to improve the
transparency of advanced LLMs.