Влияние длины шага рассуждений на большие языковые модели

Аннотация

Цепочка рассуждений (Chain of Thought, CoT) играет важную роль в улучшении способности к рассуждению у крупных языковых моделей (LLM). Однако связь между эффективностью CoT и длиной шагов рассуждения в промптах остается в значительной степени неизученной. Чтобы пролить свет на этот вопрос, мы провели ряд эмпирических экспериментов для изучения этих взаимосвязей. В частности, мы разработали эксперименты, в которых расширяли и сжимали шаги логического обоснования в демонстрациях CoT, сохраняя при этом все остальные факторы неизменными. Мы получили следующие ключевые результаты. Во-первых, результаты показывают, что увеличение количества шагов рассуждения в промптах, даже без добавления новой информации, значительно улучшает способность LLM к рассуждению на множестве наборов данных. С другой стороны, сокращение шагов рассуждения, даже при сохранении ключевой информации, существенно снижает способность моделей к рассуждению. Этот вывод подчеркивает важность количества шагов в промптах CoT и предоставляет практические рекомендации для более эффективного использования потенциала LLM в сложных сценариях решения задач. Во-вторых, мы также исследовали взаимосвязь между производительностью CoT и используемыми в демонстрациях обоснованиями. Удивительно, но результаты показывают, что даже некорректные обоснования могут давать благоприятные результаты, если они сохраняют необходимую длину вывода. В-третьих, мы обнаружили, что преимущества увеличения шагов рассуждения зависят от задачи: более простые задачи требуют меньшего количества шагов, тогда как сложные задачи значительно выигрывают от более длинных последовательностей вывода.

English

Chain of Thought (CoT) is significant in improving the reasoning abilities of large language models (LLMs). However, the correlation between the effectiveness of CoT and the length of reasoning steps in prompts remains largely unknown. To shed light on this, we have conducted several empirical experiments to explore the relations. Specifically, we design experiments that expand and compress the rationale reasoning steps within CoT demonstrations, while keeping all other factors constant. We have the following key findings. First, the results indicate that lengthening the reasoning steps in prompts, even without adding new information into the prompt, considerably enhances LLMs' reasoning abilities across multiple datasets. Alternatively, shortening the reasoning steps, even while preserving the key information, significantly diminishes the reasoning abilities of models. This finding highlights the importance of the number of steps in CoT prompts and provides practical guidance to make better use of LLMs' potential in complex problem-solving scenarios. Second, we also investigated the relationship between the performance of CoT and the rationales used in demonstrations. Surprisingly, the result shows that even incorrect rationales can yield favorable outcomes if they maintain the requisite length of inference. Third, we observed that the advantages of increasing reasoning steps are task-dependent: simpler tasks require fewer steps, whereas complex tasks gain significantly from longer inference sequences.

Влияние длины шага рассуждений на большие языковые модели

The Impact of Reasoning Step Length on Large Language Models

Аннотация

Support