ChatPaper.aiChatPaper

GPT-Fathom: Benchmarking von großen Sprachmodellen zur Entschlüsselung des evolutionären Weges zu GPT-4 und darüber hinaus

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

September 28, 2023
papers.authors: Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang
cs.AI

papers.abstract

Mit der rasanten Entwicklung großer Sprachmodelle (LLMs) besteht ein dringender Bedarf an einem umfassenden Evaluationsframework, um deren Fähigkeiten und Grenzen zu bewerten. Bestehende LLM-Ranglisten beziehen sich oft auf in anderen Arbeiten berichtete Ergebnisse ohne konsistente Einstellungen und Prompts, was unbeabsichtigt die Auswahl bevorzugter Einstellungen und Prompts für bessere Ergebnisse fördern kann. In dieser Arbeit stellen wir GPT-Fathom vor, ein quelloffenes und reproduzierbares LLM-Evaluationsframework, das auf OpenAI Evals aufbaut. Wir evaluieren systematisch mehr als 10 führende LLMs sowie OpenAIs Legacy-Modelle anhand von über 20 sorgfältig ausgewählten Benchmarks in 7 Fähigkeitskategorien, alle unter einheitlichen Einstellungen. Unsere retrospektive Studie zu OpenAIs früheren Modellen bietet wertvolle Einblicke in den Entwicklungsweg von GPT-3 zu GPT-4. Derzeit ist die Gemeinschaft bestrebt zu verstehen, wie sich GPT-3 schrittweise zu GPT-4 verbessert, einschließlich technischer Details wie beispielsweise, ob das Hinzufügen von Code-Daten die Fähigkeit des LLMs zur logischen Schlussfolgerung verbessert, welche Aspekte der LLM-Fähigkeiten durch SFT und RLHF verbessert werden können, wie hoch die Alignment-Steuer ist, usw. Unsere Analyse beleuchtet viele dieser Fragen und zielt darauf ab, die Transparenz fortschrittlicher LLMs zu verbessern.
English
With the rapid advancement of large language models (LLMs), there is a pressing need for a comprehensive evaluation suite to assess their capabilities and limitations. Existing LLM leaderboards often reference scores reported in other papers without consistent settings and prompts, which may inadvertently encourage cherry-picking favored settings and prompts for better results. In this work, we introduce GPT-Fathom, an open-source and reproducible LLM evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+ leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across 7 capability categories, all under aligned settings. Our retrospective study on OpenAI's earlier models offers valuable insights into the evolutionary path from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3 progressively improves to GPT-4, including technical details like whether adding code data improves LLM's reasoning capability, which aspects of LLM capability can be improved by SFT and RLHF, how much is the alignment tax, etc. Our analysis sheds light on many of these questions, aiming to improve the transparency of advanced LLMs.
PDF120December 15, 2024