GPT-Fathom: GPT-4와 그 이상을 향한 진화 경로를 해독하기 위한 대규모 언어 모델 벤치마킹
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond
September 28, 2023
저자: Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 발전과 함께, 이들의 능력과 한계를 평가하기 위한 포괄적인 평가 도구의 필요성이 절실해졌습니다. 기존의 LLM 리더보드는 종종 다른 논문에서 보고된 점수를 일관되지 않은 설정과 프롬프트로 참조하며, 이는 더 나은 결과를 위해 선호하는 설정과 프롬프트를 선별적으로 사용하도록 부추길 수 있습니다. 본 연구에서는 OpenAI Evals를 기반으로 한 오픈소스이자 재현 가능한 LLM 평가 도구인 GPT-Fathom을 소개합니다. 우리는 7가지 능력 범주에 걸쳐 20개 이상의 선별된 벤치마크에서 10개 이상의 주요 LLM과 OpenAI의 레거시 모델을 일관된 설정 하에 체계적으로 평가했습니다. OpenAI의 초기 모델에 대한 우리의 회고적 연구는 GPT-3에서 GPT-4로의 진화 경로에 대한 귀중한 통찰을 제공합니다. 현재 커뮤니티는 GPT-3가 어떻게 점진적으로 GPT-4로 개선되었는지, 코드 데이터 추가가 LLM의 추론 능력을 향상시키는지 여부와 같은 기술적 세부 사항, SFT와 RLHF가 LLM의 어떤 능력을 향상시킬 수 있는지, 얼마나 많은 정렬 비용이 발생하는지 등에 대해 알고 싶어 합니다. 우리의 분석은 이러한 많은 질문에 빛을 비추며, 고급 LLM의 투명성을 향상시키는 것을 목표로 합니다.
English
With the rapid advancement of large language models (LLMs), there is a
pressing need for a comprehensive evaluation suite to assess their capabilities
and limitations. Existing LLM leaderboards often reference scores reported in
other papers without consistent settings and prompts, which may inadvertently
encourage cherry-picking favored settings and prompts for better results. In
this work, we introduce GPT-Fathom, an open-source and reproducible LLM
evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+
leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across
7 capability categories, all under aligned settings. Our retrospective study on
OpenAI's earlier models offers valuable insights into the evolutionary path
from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3
progressively improves to GPT-4, including technical details like whether
adding code data improves LLM's reasoning capability, which aspects of LLM
capability can be improved by SFT and RLHF, how much is the alignment tax, etc.
Our analysis sheds light on many of these questions, aiming to improve the
transparency of advanced LLMs.