Chain-of-Thought Hub : Un effort continu pour évaluer les performances de raisonnement des grands modèles de langage
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance
May 26, 2023
Auteurs: Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot
cs.AI
Résumé
Alors que les modèles de langage de grande taille (LLMs) continuent d'être développés, leur évaluation devient de plus en plus importante mais aussi complexe. Ce travail propose Chain-of-Thought Hub, une suite d'évaluation open-source axée sur les capacités de raisonnement multi-étapes des grands modèles de langage. Nous nous intéressons à ce contexte pour deux raisons : (1) en observant le comportement des modèles GPT et PaLM, nous constatons que le raisonnement complexe est probablement un facteur clé de différenciation entre les LLMs plus faibles et plus performants ; (2) nous envisageons que les grands modèles de langage deviennent la prochaine plateforme de calcul et favorisent un écosystème de nouvelles applications basées sur les LLMs, ce qui nécessite naturellement que les modèles de base soient capables d'exécuter des tâches complexes impliquant souvent la composition d'opérations linguistiques et logiques. Notre approche consiste à compiler une série de benchmarks de raisonnement difficiles pour suivre les progrès des LLMs. Nos résultats actuels montrent que : (1) l'échelle des modèles est clairement corrélée à leurs capacités de raisonnement ; (2) en mai 2023, Claude-v1.3 et PaLM-2 sont les deux seuls modèles comparables à GPT-4, tandis que les modèles open source restent à la traîne ; (3) LLaMA-65B obtient des performances proches de code-davinci-002, indiquant qu'avec un développement supplémentaire réussi, comme l'apprentissage par renforcement à partir des retours humains (RLHF), il a un grand potentiel pour se rapprocher de GPT-3.5-Turbo. Nos résultats suggèrent également que pour que les efforts open source rattrapent leur retard, la communauté pourrait se concentrer davantage sur la construction de meilleurs modèles de base et l'exploration du RLHF.
English
As large language models (LLMs) are continuously being developed, their
evaluation becomes increasingly important yet challenging. This work proposes
Chain-of-Thought Hub, an open-source evaluation suite on the multi-step
reasoning capabilities of large language models. We are interested in this
setting for two reasons: (1) from the behavior of GPT and PaLM model family, we
observe that complex reasoning is likely to be a key differentiator between
weaker and stronger LLMs; (2) we envisage large language models to become the
next-generation computational platform and foster an ecosystem of LLM-based new
applications, this naturally requires the foundation models to perform complex
tasks that often involve the composition of linguistic and logical operations.
Our approach is to compile a suite of challenging reasoning benchmarks to track
the progress of LLMs. Our current results show that: (1) model scale clearly
correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and
PaLM-2 are the only two models that are comparable with GPT-4, while
open-sourced models still lag behind; (3) LLaMA-65B performs closely to
code-davinci-002, indicating that with successful further development such as
reinforcement learning from human feedback (RLHF), it has great potential to be
close to GPT-3.5-Turbo. Our results also suggest that for the open-source
efforts to catch up, the community may focus more on building better base
models and exploring RLHF.