Chain-of-Thought Hub: Um Esforço Contínuo para Medir o Desempenho de Raciocínio dos Modelos de Linguagem de Grande Escala
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance
May 26, 2023
Autores: Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) continuam a ser desenvolvidos, sua avaliação torna-se cada vez mais importante, porém desafiadora. Este trabalho propõe o Chain-of-Thought Hub, um conjunto de avaliação de código aberto focado nas capacidades de raciocínio em múltiplos passos dos modelos de linguagem de grande escala. Interessamo-nos por esse cenário por duas razões: (1) a partir do comportamento das famílias de modelos GPT e PaLM, observamos que o raciocínio complexo provavelmente será um diferencial chave entre LLMs mais fracos e mais fortes; (2) prevemos que os modelos de linguagem de grande escala se tornarão a próxima geração de plataformas computacionais e fomentarão um ecossistema de novas aplicações baseadas em LLMs, o que naturalmente exige que os modelos de base realizem tarefas complexas que frequentemente envolvem a composição de operações linguísticas e lógicas. Nossa abordagem consiste em compilar um conjunto de benchmarks desafiadores de raciocínio para acompanhar o progresso dos LLMs. Nossos resultados atuais mostram que: (1) a escala do modelo claramente se correlaciona com as capacidades de raciocínio; (2) Em maio de 2023, Claude-v1.3 e PaLM-2 são os únicos dois modelos comparáveis ao GPT-4, enquanto os modelos de código aberto ainda estão atrás; (3) LLaMA-65B tem um desempenho próximo ao code-davinci-002, indicando que, com um desenvolvimento adicional bem-sucedido, como o aprendizado por reforço com feedback humano (RLHF), ele tem grande potencial para se aproximar do GPT-3.5-Turbo. Nossos resultados também sugerem que, para os esforços de código aberto alcançarem os modelos líderes, a comunidade pode focar mais na construção de modelos base melhores e na exploração do RLHF.
English
As large language models (LLMs) are continuously being developed, their
evaluation becomes increasingly important yet challenging. This work proposes
Chain-of-Thought Hub, an open-source evaluation suite on the multi-step
reasoning capabilities of large language models. We are interested in this
setting for two reasons: (1) from the behavior of GPT and PaLM model family, we
observe that complex reasoning is likely to be a key differentiator between
weaker and stronger LLMs; (2) we envisage large language models to become the
next-generation computational platform and foster an ecosystem of LLM-based new
applications, this naturally requires the foundation models to perform complex
tasks that often involve the composition of linguistic and logical operations.
Our approach is to compile a suite of challenging reasoning benchmarks to track
the progress of LLMs. Our current results show that: (1) model scale clearly
correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and
PaLM-2 are the only two models that are comparable with GPT-4, while
open-sourced models still lag behind; (3) LLaMA-65B performs closely to
code-davinci-002, indicating that with successful further development such as
reinforcement learning from human feedback (RLHF), it has great potential to be
close to GPT-3.5-Turbo. Our results also suggest that for the open-source
efforts to catch up, the community may focus more on building better base
models and exploring RLHF.