Chain-of-Thought Hub: Een doorlopende inspanning om het redeneervermogen van grote taalmodellen te meten
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance
May 26, 2023
Auteurs: Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLMs) voortdurend worden ontwikkeld, wordt hun evaluatie steeds belangrijker maar ook uitdagender. Dit werk stelt de Chain-of-Thought Hub voor, een open-source evaluatiesuite voor de multi-staps redeneervaardigheden van grote taalmodellen. Wij zijn in deze setting geïnteresseerd om twee redenen: (1) uit het gedrag van de GPT- en PaLM-modelfamilies observeren we dat complex redeneren waarschijnlijk een belangrijke onderscheidende factor is tussen zwakkere en sterkere LLMs; (2) wij voorzien dat grote taalmodellen het volgende generatie computerplatform zullen worden en een ecosysteem van nieuwe op LLM gebaseerde applicaties zullen bevorderen, wat van nature vereist dat de foundation-modellen complexe taken kunnen uitvoeren die vaak de samenstelling van linguïstische en logische operaties omvatten. Onze aanpak bestaat uit het samenstellen van een suite van uitdagende redeneerbenchmarks om de voortgang van LLMs te volgen. Onze huidige resultaten tonen aan dat: (1) modelschaal duidelijk correleert met redeneervaardigheden; (2) vanaf mei 2023 zijn Claude-v1.3 en PaLM-2 de enige twee modellen die vergelijkbaar zijn met GPT-4, terwijl open-source modellen nog achterblijven; (3) LLaMA-65B presteert dicht bij code-davinci-002, wat aangeeft dat het met succesvolle verdere ontwikkeling, zoals reinforcement learning from human feedback (RLHF), groot potentieel heeft om dicht bij GPT-3.5-Turbo te komen. Onze resultaten suggereren ook dat de gemeenschap zich, om de open-source inspanningen bij te laten halen, meer kan richten op het bouwen van betere basismodellen en het verkennen van RLHF.
English
As large language models (LLMs) are continuously being developed, their
evaluation becomes increasingly important yet challenging. This work proposes
Chain-of-Thought Hub, an open-source evaluation suite on the multi-step
reasoning capabilities of large language models. We are interested in this
setting for two reasons: (1) from the behavior of GPT and PaLM model family, we
observe that complex reasoning is likely to be a key differentiator between
weaker and stronger LLMs; (2) we envisage large language models to become the
next-generation computational platform and foster an ecosystem of LLM-based new
applications, this naturally requires the foundation models to perform complex
tasks that often involve the composition of linguistic and logical operations.
Our approach is to compile a suite of challenging reasoning benchmarks to track
the progress of LLMs. Our current results show that: (1) model scale clearly
correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and
PaLM-2 are the only two models that are comparable with GPT-4, while
open-sourced models still lag behind; (3) LLaMA-65B performs closely to
code-davinci-002, indicating that with successful further development such as
reinforcement learning from human feedback (RLHF), it has great potential to be
close to GPT-3.5-Turbo. Our results also suggest that for the open-source
efforts to catch up, the community may focus more on building better base
models and exploring RLHF.