GPT-Fathom: Бенчмаркинг крупных языковых моделей для расшифровки эволюционного пути к GPT-4 и далее
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond
September 28, 2023
Авторы: Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang
cs.AI
Аннотация
С быстрым развитием крупных языковых моделей (LLM) возникает острая необходимость в комплексной системе оценки для анализа их возможностей и ограничений. Существующие рейтинги LLM часто ссылаются на результаты, представленные в других работах, без единообразных настроек и промптов, что может непреднамеренно способствовать выбору наиболее выгодных настроек и промптов для улучшения результатов. В данной работе мы представляем GPT-Fathom — открытую и воспроизводимую систему оценки LLM, построенную на основе OpenAI Evals. Мы систематически оцениваем более 10 ведущих LLM, а также устаревшие модели OpenAI, на более чем 20 тщательно отобранных бенчмарках, охватывающих 7 категорий возможностей, все в согласованных условиях. Наше ретроспективное исследование ранних моделей OpenAI предоставляет ценные инсайты в эволюционный путь от GPT-3 к GPT-4. В настоящее время сообщество стремится понять, как GPT-3 постепенно улучшается до GPT-4, включая технические детали, такие как улучшает ли добавление данных с кодом способность LLM к рассуждению, какие аспекты возможностей LLM могут быть улучшены с помощью SFT и RLHF, какова стоимость согласования и т.д. Наш анализ проливает свет на многие из этих вопросов, стремясь повысить прозрачность передовых LLM.
English
With the rapid advancement of large language models (LLMs), there is a
pressing need for a comprehensive evaluation suite to assess their capabilities
and limitations. Existing LLM leaderboards often reference scores reported in
other papers without consistent settings and prompts, which may inadvertently
encourage cherry-picking favored settings and prompts for better results. In
this work, we introduce GPT-Fathom, an open-source and reproducible LLM
evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+
leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across
7 capability categories, all under aligned settings. Our retrospective study on
OpenAI's earlier models offers valuable insights into the evolutionary path
from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3
progressively improves to GPT-4, including technical details like whether
adding code data improves LLM's reasoning capability, which aspects of LLM
capability can be improved by SFT and RLHF, how much is the alignment tax, etc.
Our analysis sheds light on many of these questions, aiming to improve the
transparency of advanced LLMs.