Chain-of-Thought Hub: Un impegno continuo per misurare le prestazioni di ragionamento dei modelli linguistici su larga scala

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono continuamente sviluppati, la loro valutazione diventa sempre più importante ma anche impegnativa. Questo lavoro propone Chain-of-Thought Hub, una suite di valutazione open-source sulle capacità di ragionamento multi-step dei modelli linguistici di grandi dimensioni. Siamo interessati a questo contesto per due motivi: (1) dal comportamento delle famiglie di modelli GPT e PaLM, osserviamo che il ragionamento complesso è probabilmente un fattore chiave di differenziazione tra LLM più deboli e più forti; (2) prevediamo che i modelli linguistici di grandi dimensioni diventeranno la prossima generazione di piattaforme computazionali e favoriranno un ecosistema di nuove applicazioni basate su LLM, il che richiede naturalmente che i modelli di base siano in grado di eseguire compiti complessi che spesso coinvolgono la composizione di operazioni linguistiche e logiche. Il nostro approccio consiste nel compilare una suite di benchmark di ragionamento impegnativi per monitorare i progressi degli LLM. I nostri risultati attuali mostrano che: (1) la scala del modello è chiaramente correlata alle capacità di ragionamento; (2) A maggio 2023, Claude-v1.3 e PaLM-2 sono gli unici due modelli paragonabili a GPT-4, mentre i modelli open-source sono ancora in ritardo; (3) LLaMA-65B si avvicina a code-davinci-002, indicando che con un ulteriore sviluppo di successo, come il reinforcement learning da feedback umano (RLHF), ha un grande potenziale per avvicinarsi a GPT-3.5-Turbo. I nostri risultati suggeriscono inoltre che, affinché gli sforzi open-source possano recuperare il ritardo, la comunità potrebbe concentrarsi maggiormente sulla costruzione di modelli di base migliori e sull'esplorazione dell'RLHF.

English

As large language models (LLMs) are continuously being developed, their evaluation becomes increasingly important yet challenging. This work proposes Chain-of-Thought Hub, an open-source evaluation suite on the multi-step reasoning capabilities of large language models. We are interested in this setting for two reasons: (1) from the behavior of GPT and PaLM model family, we observe that complex reasoning is likely to be a key differentiator between weaker and stronger LLMs; (2) we envisage large language models to become the next-generation computational platform and foster an ecosystem of LLM-based new applications, this naturally requires the foundation models to perform complex tasks that often involve the composition of linguistic and logical operations. Our approach is to compile a suite of challenging reasoning benchmarks to track the progress of LLMs. Our current results show that: (1) model scale clearly correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and PaLM-2 are the only two models that are comparable with GPT-4, while open-sourced models still lag behind; (3) LLaMA-65B performs closely to code-davinci-002, indicating that with successful further development such as reinforcement learning from human feedback (RLHF), it has great potential to be close to GPT-3.5-Turbo. Our results also suggest that for the open-source efforts to catch up, the community may focus more on building better base models and exploring RLHF.

Chain-of-Thought Hub: Un impegno continuo per misurare le prestazioni di ragionamento dei modelli linguistici su larga scala

Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance

Abstract

Support