Chain-of-Thought Hub: Постоянные усилия по оценке способности крупных языковых моделей к логическому рассуждению
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance
May 26, 2023
Авторы: Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot
cs.AI
Аннотация
По мере непрерывного развития крупных языковых моделей (LLM) их оценка становится всё более важной, но и сложной задачей. В данной работе предлагается Chain-of-Thought Hub — открытый набор инструментов для оценки способности крупных языковых моделей к многошаговому рассуждению. Мы заинтересованы в этом подходе по двум причинам: (1) на основе наблюдений за поведением моделей семейств GPT и PaLM мы отмечаем, что сложное рассуждение, вероятно, является ключевым фактором, отличающим более слабые модели от более сильных; (2) мы предполагаем, что крупные языковые модели станут вычислительной платформой следующего поколения и будут способствовать созданию экосистемы новых приложений на основе LLM, что естественным образом требует от базовых моделей выполнения сложных задач, часто включающих комбинацию лингвистических и логических операций. Наш подход заключается в создании набора сложных тестов для отслеживания прогресса LLM. Текущие результаты показывают, что: (1) масштаб модели явно коррелирует с её способностями к рассуждению; (2) по состоянию на май 2023 года Claude-v1.3 и PaLM-2 являются единственными моделями, сопоставимыми с GPT-4, в то время как открытые модели всё ещё отстают; (3) LLaMA-65B демонстрирует результаты, близкие к code-davinci-002, что указывает на её большой потенциал приблизиться к GPT-3.5-Turbo при успешном дальнейшем развитии, например, с использованием обучения с подкреплением на основе обратной связи от людей (RLHF). Наши результаты также свидетельствуют о том, что для того, чтобы открытые разработки смогли догнать лидеров, сообществу следует сосредоточиться на создании более качественных базовых моделей и исследовании RLHF.
English
As large language models (LLMs) are continuously being developed, their
evaluation becomes increasingly important yet challenging. This work proposes
Chain-of-Thought Hub, an open-source evaluation suite on the multi-step
reasoning capabilities of large language models. We are interested in this
setting for two reasons: (1) from the behavior of GPT and PaLM model family, we
observe that complex reasoning is likely to be a key differentiator between
weaker and stronger LLMs; (2) we envisage large language models to become the
next-generation computational platform and foster an ecosystem of LLM-based new
applications, this naturally requires the foundation models to perform complex
tasks that often involve the composition of linguistic and logical operations.
Our approach is to compile a suite of challenging reasoning benchmarks to track
the progress of LLMs. Our current results show that: (1) model scale clearly
correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and
PaLM-2 are the only two models that are comparable with GPT-4, while
open-sourced models still lag behind; (3) LLaMA-65B performs closely to
code-davinci-002, indicating that with successful further development such as
reinforcement learning from human feedback (RLHF), it has great potential to be
close to GPT-3.5-Turbo. Our results also suggest that for the open-source
efforts to catch up, the community may focus more on building better base
models and exploring RLHF.