Chain-of-Thought Hub: Un impegno continuo per misurare le prestazioni di ragionamento dei modelli linguistici su larga scala
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance
May 26, 2023
Autori: Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot
cs.AI
Abstract
Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono continuamente sviluppati, la loro valutazione diventa sempre più importante ma anche impegnativa. Questo lavoro propone Chain-of-Thought Hub, una suite di valutazione open-source sulle capacità di ragionamento multi-step dei modelli linguistici di grandi dimensioni. Siamo interessati a questo contesto per due motivi: (1) dal comportamento delle famiglie di modelli GPT e PaLM, osserviamo che il ragionamento complesso è probabilmente un fattore chiave di differenziazione tra LLM più deboli e più forti; (2) prevediamo che i modelli linguistici di grandi dimensioni diventeranno la prossima generazione di piattaforme computazionali e favoriranno un ecosistema di nuove applicazioni basate su LLM, il che richiede naturalmente che i modelli di base siano in grado di eseguire compiti complessi che spesso coinvolgono la composizione di operazioni linguistiche e logiche. Il nostro approccio consiste nel compilare una suite di benchmark di ragionamento impegnativi per monitorare i progressi degli LLM. I nostri risultati attuali mostrano che: (1) la scala del modello è chiaramente correlata alle capacità di ragionamento; (2) A maggio 2023, Claude-v1.3 e PaLM-2 sono gli unici due modelli paragonabili a GPT-4, mentre i modelli open-source sono ancora in ritardo; (3) LLaMA-65B si avvicina a code-davinci-002, indicando che con un ulteriore sviluppo di successo, come il reinforcement learning da feedback umano (RLHF), ha un grande potenziale per avvicinarsi a GPT-3.5-Turbo. I nostri risultati suggeriscono inoltre che, affinché gli sforzi open-source possano recuperare il ritardo, la comunità potrebbe concentrarsi maggiormente sulla costruzione di modelli di base migliori e sull'esplorazione dell'RLHF.
English
As large language models (LLMs) are continuously being developed, their
evaluation becomes increasingly important yet challenging. This work proposes
Chain-of-Thought Hub, an open-source evaluation suite on the multi-step
reasoning capabilities of large language models. We are interested in this
setting for two reasons: (1) from the behavior of GPT and PaLM model family, we
observe that complex reasoning is likely to be a key differentiator between
weaker and stronger LLMs; (2) we envisage large language models to become the
next-generation computational platform and foster an ecosystem of LLM-based new
applications, this naturally requires the foundation models to perform complex
tasks that often involve the composition of linguistic and logical operations.
Our approach is to compile a suite of challenging reasoning benchmarks to track
the progress of LLMs. Our current results show that: (1) model scale clearly
correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and
PaLM-2 are the only two models that are comparable with GPT-4, while
open-sourced models still lag behind; (3) LLaMA-65B performs closely to
code-davinci-002, indicating that with successful further development such as
reinforcement learning from human feedback (RLHF), it has great potential to be
close to GPT-3.5-Turbo. Our results also suggest that for the open-source
efforts to catch up, the community may focus more on building better base
models and exploring RLHF.