GPT-Fathom: Benchmarking dei Modelli Linguistici di Grande Scala per Decifrare il Percorso Evolutivo verso GPT-4 e Oltre
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond
September 28, 2023
Autori: Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang
cs.AI
Abstract
Con il rapido progresso dei modelli linguistici di grandi dimensioni (LLM), emerge un'esigenza pressante di una suite di valutazione completa per valutarne le capacità e i limiti. Le classifiche esistenti degli LLM spesso fanno riferimento a punteggi riportati in altri articoli senza impostazioni e prompt coerenti, il che potrebbe involontariamente incoraggiare la selezione mirata di impostazioni e prompt preferiti per ottenere risultati migliori. In questo lavoro, presentiamo GPT-Fathom, una suite di valutazione degli LLM open-source e riproducibile, costruita su OpenAI Evals. Valutiamo sistematicamente oltre 10 LLM leader, nonché i modelli legacy di OpenAI, su oltre 20 benchmark curati in 7 categorie di capacità, tutti in impostazioni allineate. Il nostro studio retrospettivo sui modelli precedenti di OpenAI offre preziose intuizioni sul percorso evolutivo da GPT-3 a GPT-4. Attualmente, la comunità è desiderosa di sapere come GPT-3 sia progredito fino a GPT-4, inclusi dettagli tecnici come se l'aggiunta di dati di codice migliori la capacità di ragionamento degli LLM, quali aspetti delle capacità degli LLM possano essere migliorati da SFT e RLHF, quanto sia la tassa di allineamento, ecc. La nostra analisi getta luce su molte di queste domande, con l'obiettivo di migliorare la trasparenza degli LLM avanzati.
English
With the rapid advancement of large language models (LLMs), there is a
pressing need for a comprehensive evaluation suite to assess their capabilities
and limitations. Existing LLM leaderboards often reference scores reported in
other papers without consistent settings and prompts, which may inadvertently
encourage cherry-picking favored settings and prompts for better results. In
this work, we introduce GPT-Fathom, an open-source and reproducible LLM
evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+
leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across
7 capability categories, all under aligned settings. Our retrospective study on
OpenAI's earlier models offers valuable insights into the evolutionary path
from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3
progressively improves to GPT-4, including technical details like whether
adding code data improves LLM's reasoning capability, which aspects of LLM
capability can be improved by SFT and RLHF, how much is the alignment tax, etc.
Our analysis sheds light on many of these questions, aiming to improve the
transparency of advanced LLMs.