ChatPaper.aiChatPaper

Chain-of-Thought Hub: Ein kontinuierliches Bestreben, die Denkleistung großer Sprachmodelle zu messen

Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance

May 26, 2023
Autoren: Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot
cs.AI

Zusammenfassung

Da große Sprachmodelle (LLMs) kontinuierlich weiterentwickelt werden, wird ihre Bewertung zunehmend wichtig, aber auch herausfordernd. Diese Arbeit schlägt Chain-of-Thought Hub vor, eine Open-Source-Evaluationssuite für die mehrstufigen Denkfähigkeiten großer Sprachmodelle. Wir interessieren uns aus zwei Gründen für diesen Ansatz: (1) Aus dem Verhalten der GPT- und PaLM-Modellfamilien beobachten wir, dass komplexes Denken wahrscheinlich ein entscheidender Unterscheidungsfaktor zwischen schwächeren und stärkeren LLMs ist; (2) Wir stellen uns vor, dass große Sprachmodelle die nächste Generation von Rechenplattformen werden und ein Ökosystem neuer LLM-basierter Anwendungen fördern, was natürlicherweise erfordert, dass die Basismodelle komplexe Aufgaben bewältigen, die oft die Zusammensetzung von sprachlichen und logischen Operationen beinhalten. Unser Ansatz besteht darin, eine Reihe anspruchsvoller Denkbenchmarks zusammenzustellen, um den Fortschritt von LLMs zu verfolgen. Unsere aktuellen Ergebnisse zeigen: (1) Die Modellgröße korreliert eindeutig mit den Denkfähigkeiten; (2) Stand Mai 2023 sind Claude-v1.3 und PaLM-2 die einzigen beiden Modelle, die mit GPT-4 vergleichbar sind, während Open-Source-Modelle noch hinterherhinken; (3) LLaMA-65B schneidet ähnlich gut ab wie code-davinci-002, was darauf hindeutet, dass es bei erfolgreicher Weiterentwicklung, wie z. B. Reinforcement Learning from Human Feedback (RLHF), großes Potenzial hat, nahe an GPT-3.5-Turbo heranzukommen. Unsere Ergebnisse deuten auch darauf hin, dass die Open-Source-Bemühungen, um aufzuholen, sich stärker auf den Aufbau besserer Basismodelle und die Erforschung von RLHF konzentrieren sollten.
English
As large language models (LLMs) are continuously being developed, their evaluation becomes increasingly important yet challenging. This work proposes Chain-of-Thought Hub, an open-source evaluation suite on the multi-step reasoning capabilities of large language models. We are interested in this setting for two reasons: (1) from the behavior of GPT and PaLM model family, we observe that complex reasoning is likely to be a key differentiator between weaker and stronger LLMs; (2) we envisage large language models to become the next-generation computational platform and foster an ecosystem of LLM-based new applications, this naturally requires the foundation models to perform complex tasks that often involve the composition of linguistic and logical operations. Our approach is to compile a suite of challenging reasoning benchmarks to track the progress of LLMs. Our current results show that: (1) model scale clearly correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and PaLM-2 are the only two models that are comparable with GPT-4, while open-sourced models still lag behind; (3) LLaMA-65B performs closely to code-davinci-002, indicating that with successful further development such as reinforcement learning from human feedback (RLHF), it has great potential to be close to GPT-3.5-Turbo. Our results also suggest that for the open-source efforts to catch up, the community may focus more on building better base models and exploring RLHF.
PDF20December 15, 2024