Chain-of-Thought Hub: Um Esforço Contínuo para Medir o Desempenho de Raciocínio dos Modelos de Linguagem de Grande Escala

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) continuam a ser desenvolvidos, sua avaliação torna-se cada vez mais importante, porém desafiadora. Este trabalho propõe o Chain-of-Thought Hub, um conjunto de avaliação de código aberto focado nas capacidades de raciocínio em múltiplos passos dos modelos de linguagem de grande escala. Interessamo-nos por esse cenário por duas razões: (1) a partir do comportamento das famílias de modelos GPT e PaLM, observamos que o raciocínio complexo provavelmente será um diferencial chave entre LLMs mais fracos e mais fortes; (2) prevemos que os modelos de linguagem de grande escala se tornarão a próxima geração de plataformas computacionais e fomentarão um ecossistema de novas aplicações baseadas em LLMs, o que naturalmente exige que os modelos de base realizem tarefas complexas que frequentemente envolvem a composição de operações linguísticas e lógicas. Nossa abordagem consiste em compilar um conjunto de benchmarks desafiadores de raciocínio para acompanhar o progresso dos LLMs. Nossos resultados atuais mostram que: (1) a escala do modelo claramente se correlaciona com as capacidades de raciocínio; (2) Em maio de 2023, Claude-v1.3 e PaLM-2 são os únicos dois modelos comparáveis ao GPT-4, enquanto os modelos de código aberto ainda estão atrás; (3) LLaMA-65B tem um desempenho próximo ao code-davinci-002, indicando que, com um desenvolvimento adicional bem-sucedido, como o aprendizado por reforço com feedback humano (RLHF), ele tem grande potencial para se aproximar do GPT-3.5-Turbo. Nossos resultados também sugerem que, para os esforços de código aberto alcançarem os modelos líderes, a comunidade pode focar mais na construção de modelos base melhores e na exploração do RLHF.

English

As large language models (LLMs) are continuously being developed, their evaluation becomes increasingly important yet challenging. This work proposes Chain-of-Thought Hub, an open-source evaluation suite on the multi-step reasoning capabilities of large language models. We are interested in this setting for two reasons: (1) from the behavior of GPT and PaLM model family, we observe that complex reasoning is likely to be a key differentiator between weaker and stronger LLMs; (2) we envisage large language models to become the next-generation computational platform and foster an ecosystem of LLM-based new applications, this naturally requires the foundation models to perform complex tasks that often involve the composition of linguistic and logical operations. Our approach is to compile a suite of challenging reasoning benchmarks to track the progress of LLMs. Our current results show that: (1) model scale clearly correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and PaLM-2 are the only two models that are comparable with GPT-4, while open-sourced models still lag behind; (3) LLaMA-65B performs closely to code-davinci-002, indicating that with successful further development such as reinforcement learning from human feedback (RLHF), it has great potential to be close to GPT-3.5-Turbo. Our results also suggest that for the open-source efforts to catch up, the community may focus more on building better base models and exploring RLHF.

Chain-of-Thought Hub: Um Esforço Contínuo para Medir o Desempenho de Raciocínio dos Modelos de Linguagem de Grande Escala

Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance

Resumo

Support