Centro de Cadena de Pensamiento: Un Esfuerzo Continuo para Medir el Rendimiento de Razonamiento de los Modelos de Lenguaje a Gran Escala
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance
May 26, 2023
Autores: Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot
cs.AI
Resumen
A medida que los modelos de lenguaje de gran escala (LLMs) continúan desarrollándose, su evaluación se vuelve cada vez más importante pero también más desafiante. Este trabajo propone Chain-of-Thought Hub, un conjunto de evaluación de código abierto centrado en las capacidades de razonamiento multi-paso de los modelos de lenguaje de gran escala. Nos interesa este enfoque por dos razones: (1) a partir del comportamiento de la familia de modelos GPT y PaLM, observamos que el razonamiento complejo probablemente sea un diferenciador clave entre LLMs más débiles y más fuertes; (2) prevemos que los modelos de lenguaje de gran escala se conviertan en la próxima generación de plataformas computacionales y fomenten un ecosistema de nuevas aplicaciones basadas en LLMs, lo que naturalmente requiere que los modelos base realicen tareas complejas que a menudo implican la composición de operaciones lingüísticas y lógicas. Nuestro enfoque consiste en compilar un conjunto de puntos de referencia desafiantes para el razonamiento con el fin de rastrear el progreso de los LLMs. Nuestros resultados actuales muestran que: (1) la escala del modelo claramente se correlaciona con las capacidades de razonamiento; (2) Hasta mayo de 2023, Claude-v1.3 y PaLM-2 son los únicos dos modelos comparables con GPT-4, mientras que los modelos de código abierto aún están rezagados; (3) LLaMA-65B tiene un rendimiento cercano a code-davinci-002, lo que indica que, con un desarrollo adicional exitoso, como el aprendizaje por refuerzo con retroalimentación humana (RLHF), tiene un gran potencial para acercarse a GPT-3.5-Turbo. Nuestros resultados también sugieren que, para que los esfuerzos de código abierto alcancen a los modelos líderes, la comunidad podría enfocarse más en construir mejores modelos base y explorar RLHF.
English
As large language models (LLMs) are continuously being developed, their
evaluation becomes increasingly important yet challenging. This work proposes
Chain-of-Thought Hub, an open-source evaluation suite on the multi-step
reasoning capabilities of large language models. We are interested in this
setting for two reasons: (1) from the behavior of GPT and PaLM model family, we
observe that complex reasoning is likely to be a key differentiator between
weaker and stronger LLMs; (2) we envisage large language models to become the
next-generation computational platform and foster an ecosystem of LLM-based new
applications, this naturally requires the foundation models to perform complex
tasks that often involve the composition of linguistic and logical operations.
Our approach is to compile a suite of challenging reasoning benchmarks to track
the progress of LLMs. Our current results show that: (1) model scale clearly
correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and
PaLM-2 are the only two models that are comparable with GPT-4, while
open-sourced models still lag behind; (3) LLaMA-65B performs closely to
code-davinci-002, indicating that with successful further development such as
reinforcement learning from human feedback (RLHF), it has great potential to be
close to GPT-3.5-Turbo. Our results also suggest that for the open-source
efforts to catch up, the community may focus more on building better base
models and exploring RLHF.