Использовать или не использовать CoT? Цепочка мыслей помогает в основном при математическом и символическом рассуждении.

Аннотация

Цепочка мыслей (CoT) с использованием подсказок является фактическим методом для выявления способностей к рассуждениям у больших языковых моделей (LLM). Но для каких задач это дополнительное "мышление" действительно полезно? Для анализа этого мы провели количественный мета-анализ, охватывающий более 100 статей, использующих CoT, и провели собственные оценки 20 наборов данных на 14 моделях. Наши результаты показывают, что CoT приносит значительные выгоды в производительности в основном на задачах, связанных с математикой или логикой, с гораздо меньшими приростами на других типах задач. На MMLU прямое генерирование ответа без CoT приводит к практически идентичной точности, как и с CoT, если вопрос или ответ модели содержат знак равенства, указывающий на символьные операции и рассуждения. Исходя из этого вывода, мы анализируем поведение CoT на этих проблемах, разделяя планирование и выполнение и сравнивая с LLM, улучшенными инструментами. Большая часть прироста от CoT происходит за счет улучшения символьного выполнения, но он уступает по сравнению с использованием символьного решателя. Наши результаты показывают, что CoT можно применять избирательно, сохраняя производительность и снижая затраты на вывод. Более того, они указывают на необходимость перехода от основанной на подсказках CoT к новым парадигмам, которые лучше используют промежуточные вычисления во всем спектре применения LLM.

English

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

Использовать или не использовать CoT? Цепочка мыслей помогает в основном при математическом и символическом рассуждении.

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Аннотация

Support