Влияние длины шага рассуждений на большие языковые модели
The Impact of Reasoning Step Length on Large Language Models
January 10, 2024
Авторы: Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du
cs.AI
Аннотация
Цепочка рассуждений (Chain of Thought, CoT) играет важную роль в улучшении способности к рассуждению у крупных языковых моделей (LLM). Однако связь между эффективностью CoT и длиной шагов рассуждения в промптах остается в значительной степени неизученной. Чтобы пролить свет на этот вопрос, мы провели ряд эмпирических экспериментов для изучения этих взаимосвязей. В частности, мы разработали эксперименты, в которых расширяли и сжимали шаги логического обоснования в демонстрациях CoT, сохраняя при этом все остальные факторы неизменными. Мы получили следующие ключевые результаты. Во-первых, результаты показывают, что увеличение количества шагов рассуждения в промптах, даже без добавления новой информации, значительно улучшает способность LLM к рассуждению на множестве наборов данных. С другой стороны, сокращение шагов рассуждения, даже при сохранении ключевой информации, существенно снижает способность моделей к рассуждению. Этот вывод подчеркивает важность количества шагов в промптах CoT и предоставляет практические рекомендации для более эффективного использования потенциала LLM в сложных сценариях решения задач. Во-вторых, мы также исследовали взаимосвязь между производительностью CoT и используемыми в демонстрациях обоснованиями. Удивительно, но результаты показывают, что даже некорректные обоснования могут давать благоприятные результаты, если они сохраняют необходимую длину вывода. В-третьих, мы обнаружили, что преимущества увеличения шагов рассуждения зависят от задачи: более простые задачи требуют меньшего количества шагов, тогда как сложные задачи значительно выигрывают от более длинных последовательностей вывода.
English
Chain of Thought (CoT) is significant in improving the reasoning abilities of
large language models (LLMs). However, the correlation between the
effectiveness of CoT and the length of reasoning steps in prompts remains
largely unknown. To shed light on this, we have conducted several empirical
experiments to explore the relations. Specifically, we design experiments that
expand and compress the rationale reasoning steps within CoT demonstrations,
while keeping all other factors constant. We have the following key findings.
First, the results indicate that lengthening the reasoning steps in prompts,
even without adding new information into the prompt, considerably enhances
LLMs' reasoning abilities across multiple datasets. Alternatively, shortening
the reasoning steps, even while preserving the key information, significantly
diminishes the reasoning abilities of models. This finding highlights the
importance of the number of steps in CoT prompts and provides practical
guidance to make better use of LLMs' potential in complex problem-solving
scenarios. Second, we also investigated the relationship between the
performance of CoT and the rationales used in demonstrations. Surprisingly, the
result shows that even incorrect rationales can yield favorable outcomes if
they maintain the requisite length of inference. Third, we observed that the
advantages of increasing reasoning steps are task-dependent: simpler tasks
require fewer steps, whereas complex tasks gain significantly from longer
inference sequences.