Chain-of-Thought Hub: Постоянные усилия по оценке способности крупных языковых моделей к логическому рассуждению

Аннотация

По мере непрерывного развития крупных языковых моделей (LLM) их оценка становится всё более важной, но и сложной задачей. В данной работе предлагается Chain-of-Thought Hub — открытый набор инструментов для оценки способности крупных языковых моделей к многошаговому рассуждению. Мы заинтересованы в этом подходе по двум причинам: (1) на основе наблюдений за поведением моделей семейств GPT и PaLM мы отмечаем, что сложное рассуждение, вероятно, является ключевым фактором, отличающим более слабые модели от более сильных; (2) мы предполагаем, что крупные языковые модели станут вычислительной платформой следующего поколения и будут способствовать созданию экосистемы новых приложений на основе LLM, что естественным образом требует от базовых моделей выполнения сложных задач, часто включающих комбинацию лингвистических и логических операций. Наш подход заключается в создании набора сложных тестов для отслеживания прогресса LLM. Текущие результаты показывают, что: (1) масштаб модели явно коррелирует с её способностями к рассуждению; (2) по состоянию на май 2023 года Claude-v1.3 и PaLM-2 являются единственными моделями, сопоставимыми с GPT-4, в то время как открытые модели всё ещё отстают; (3) LLaMA-65B демонстрирует результаты, близкие к code-davinci-002, что указывает на её большой потенциал приблизиться к GPT-3.5-Turbo при успешном дальнейшем развитии, например, с использованием обучения с подкреплением на основе обратной связи от людей (RLHF). Наши результаты также свидетельствуют о том, что для того, чтобы открытые разработки смогли догнать лидеров, сообществу следует сосредоточиться на создании более качественных базовых моделей и исследовании RLHF.

English

As large language models (LLMs) are continuously being developed, their evaluation becomes increasingly important yet challenging. This work proposes Chain-of-Thought Hub, an open-source evaluation suite on the multi-step reasoning capabilities of large language models. We are interested in this setting for two reasons: (1) from the behavior of GPT and PaLM model family, we observe that complex reasoning is likely to be a key differentiator between weaker and stronger LLMs; (2) we envisage large language models to become the next-generation computational platform and foster an ecosystem of LLM-based new applications, this naturally requires the foundation models to perform complex tasks that often involve the composition of linguistic and logical operations. Our approach is to compile a suite of challenging reasoning benchmarks to track the progress of LLMs. Our current results show that: (1) model scale clearly correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and PaLM-2 are the only two models that are comparable with GPT-4, while open-sourced models still lag behind; (3) LLaMA-65B performs closely to code-davinci-002, indicating that with successful further development such as reinforcement learning from human feedback (RLHF), it has great potential to be close to GPT-3.5-Turbo. Our results also suggest that for the open-source efforts to catch up, the community may focus more on building better base models and exploring RLHF.

Chain-of-Thought Hub: Постоянные усилия по оценке способности крупных языковых моделей к логическому рассуждению

Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance

Аннотация

Support