GPT-Fathom: Evaluación de Modelos de Lenguaje a Gran Escala para Descifrar la Trayectoria Evolutiva hacia GPT-4 y Más Allá
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond
September 28, 2023
Autores: Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang
cs.AI
Resumen
Con el rápido avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), existe una necesidad urgente de un conjunto de evaluación integral para evaluar sus capacidades y limitaciones. Los rankings existentes de LLMs a menudo hacen referencia a puntuaciones reportadas en otros trabajos sin configuraciones y prompts consistentes, lo que puede fomentar involuntariamente la selección de configuraciones y prompts favoritos para obtener mejores resultados. En este trabajo, presentamos GPT-Fathom, un conjunto de evaluación de LLMs de código abierto y reproducible construido sobre OpenAI Evals. Evaluamos sistemáticamente más de 10 LLMs líderes, así como modelos heredados de OpenAI, en más de 20 benchmarks cuidadosamente seleccionados a través de 7 categorías de capacidades, todo bajo configuraciones alineadas. Nuestro estudio retrospectivo sobre los modelos anteriores de OpenAI ofrece valiosas perspectivas sobre la trayectoria evolutiva desde GPT-3 hasta GPT-4. Actualmente, la comunidad está ansiosa por saber cómo GPT-3 mejora progresivamente hasta GPT-4, incluyendo detalles técnicos como si la adición de datos de código mejora la capacidad de razonamiento de los LLMs, qué aspectos de la capacidad de los LLMs pueden mejorarse mediante SFT (Fine-Tuning Supervisado) y RLHF (Alineación mediante Aprendizaje por Refuerzo con Retroalimentación Humana), cuál es el costo de la alineación, entre otros. Nuestro análisis arroja luz sobre muchas de estas preguntas, con el objetivo de mejorar la transparencia de los LLMs avanzados.
English
With the rapid advancement of large language models (LLMs), there is a
pressing need for a comprehensive evaluation suite to assess their capabilities
and limitations. Existing LLM leaderboards often reference scores reported in
other papers without consistent settings and prompts, which may inadvertently
encourage cherry-picking favored settings and prompts for better results. In
this work, we introduce GPT-Fathom, an open-source and reproducible LLM
evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+
leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across
7 capability categories, all under aligned settings. Our retrospective study on
OpenAI's earlier models offers valuable insights into the evolutionary path
from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3
progressively improves to GPT-4, including technical details like whether
adding code data improves LLM's reasoning capability, which aspects of LLM
capability can be improved by SFT and RLHF, how much is the alignment tax, etc.
Our analysis sheds light on many of these questions, aiming to improve the
transparency of advanced LLMs.