ChatPaper.aiChatPaper

GPT-Fathom: Avaliando Modelos de Linguagem de Grande Escala para Decifrar o Caminho Evolutivo em Direção ao GPT-4 e Além

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

September 28, 2023
Autores: Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang
cs.AI

Resumo

Com o rápido avanço dos grandes modelos de linguagem (LLMs), há uma necessidade urgente de uma suíte de avaliação abrangente para medir suas capacidades e limitações. Os rankings existentes de LLMs frequentemente referenciam pontuações relatadas em outros artigos sem configurações e prompts consistentes, o que pode inadvertidamente incentivar a seleção de configurações e prompts favoritos para obter melhores resultados. Neste trabalho, apresentamos o GPT-Fathom, uma suíte de avaliação de LLMs de código aberto e reproduzível, construída sobre o OpenAI Evals. Avaliamos sistematicamente mais de 10 LLMs líderes, bem como modelos legados da OpenAI, em mais de 20 benchmarks cuidadosamente selecionados, abrangendo 7 categorias de capacidade, todos sob configurações alinhadas. Nosso estudo retrospectivo sobre os modelos anteriores da OpenAI oferece insights valiosos sobre o caminho evolutivo do GPT-3 ao GPT-4. Atualmente, a comunidade está ansiosa para entender como o GPT-3 progrediu para o GPT-4, incluindo detalhes técnicos como se a adição de dados de código melhora a capacidade de raciocínio dos LLMs, quais aspectos da capacidade dos LLMs podem ser aprimorados por SFT e RLHF, qual é o custo do alinhamento, entre outros. Nossa análise esclarece muitas dessas questões, visando melhorar a transparência dos LLMs avançados.
English
With the rapid advancement of large language models (LLMs), there is a pressing need for a comprehensive evaluation suite to assess their capabilities and limitations. Existing LLM leaderboards often reference scores reported in other papers without consistent settings and prompts, which may inadvertently encourage cherry-picking favored settings and prompts for better results. In this work, we introduce GPT-Fathom, an open-source and reproducible LLM evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+ leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across 7 capability categories, all under aligned settings. Our retrospective study on OpenAI's earlier models offers valuable insights into the evolutionary path from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3 progressively improves to GPT-4, including technical details like whether adding code data improves LLM's reasoning capability, which aspects of LLM capability can be improved by SFT and RLHF, how much is the alignment tax, etc. Our analysis sheds light on many of these questions, aiming to improve the transparency of advanced LLMs.
PDF130December 15, 2024