O Impacto do Comprimento das Etapas de Raciocínio em Modelos de Linguagem de Grande Escala
The Impact of Reasoning Step Length on Large Language Models
January 10, 2024
Autores: Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du
cs.AI
Resumo
A Cadeia de Pensamento (Chain of Thought, CoT) é significativa para melhorar as habilidades de raciocínio dos grandes modelos de linguagem (Large Language Models, LLMs). No entanto, a correlação entre a eficácia da CoT e o comprimento das etapas de raciocínio nos prompts permanece amplamente desconhecida. Para esclarecer isso, realizamos vários experimentos empíricos para explorar essas relações. Especificamente, projetamos experimentos que expandem e comprimem as etapas de raciocínio dentro das demonstrações de CoT, mantendo todos os outros fatores constantes. Temos as seguintes descobertas principais. Primeiro, os resultados indicam que alongar as etapas de raciocínio nos prompts, mesmo sem adicionar novas informações ao prompt, melhora consideravelmente as habilidades de raciocínio dos LLMs em vários conjuntos de dados. Alternativamente, encurtar as etapas de raciocínio, mesmo preservando as informações-chave, diminui significativamente as habilidades de raciocínio dos modelos. Essa descoberta destaca a importância do número de etapas nos prompts de CoT e fornece orientações práticas para aproveitar melhor o potencial dos LLMs em cenários de resolução de problemas complexos. Segundo, também investigamos a relação entre o desempenho da CoT e as justificativas usadas nas demonstrações. Surpreendentemente, o resultado mostra que mesmo justificativas incorretas podem produzir resultados favoráveis se mantiverem o comprimento necessário de inferência. Terceiro, observamos que as vantagens de aumentar as etapas de raciocínio dependem da tarefa: tarefas mais simples exigem menos etapas, enquanto tarefas complexas se beneficiam significativamente de sequências de inferência mais longas.
English
Chain of Thought (CoT) is significant in improving the reasoning abilities of
large language models (LLMs). However, the correlation between the
effectiveness of CoT and the length of reasoning steps in prompts remains
largely unknown. To shed light on this, we have conducted several empirical
experiments to explore the relations. Specifically, we design experiments that
expand and compress the rationale reasoning steps within CoT demonstrations,
while keeping all other factors constant. We have the following key findings.
First, the results indicate that lengthening the reasoning steps in prompts,
even without adding new information into the prompt, considerably enhances
LLMs' reasoning abilities across multiple datasets. Alternatively, shortening
the reasoning steps, even while preserving the key information, significantly
diminishes the reasoning abilities of models. This finding highlights the
importance of the number of steps in CoT prompts and provides practical
guidance to make better use of LLMs' potential in complex problem-solving
scenarios. Second, we also investigated the relationship between the
performance of CoT and the rationales used in demonstrations. Surprisingly, the
result shows that even incorrect rationales can yield favorable outcomes if
they maintain the requisite length of inference. Third, we observed that the
advantages of increasing reasoning steps are task-dependent: simpler tasks
require fewer steps, whereas complex tasks gain significantly from longer
inference sequences.