Usar ou não usar CoT? A cadeia de pensamento ajuda principalmente em matemática e raciocínio simbólico.

Resumo

A cadeia de pensamento (CoT) via indução é o método de facto para elicitar capacidades de raciocínio de grandes modelos de linguagem (LLMs). Mas para que tipos de tarefas esse "pensamento" extra é realmente útil? Para analisar isso, conduzimos uma meta-análise quantitativa abrangendo mais de 100 artigos que utilizam CoT e realizamos nossas próprias avaliações em 20 conjuntos de dados em 14 modelos. Nossos resultados mostram que o CoT proporciona fortes benefícios de desempenho principalmente em tarefas envolvendo matemática ou lógica, com ganhos muito menores em outros tipos de tarefas. No MMLU, gerar diretamente a resposta sem CoT leva a uma precisão quase idêntica ao CoT, a menos que a pergunta ou a resposta do modelo contenha um sinal de igual, indicando operações simbólicas e raciocínio. Seguindo essa descoberta, analisamos o comportamento do CoT nesses problemas, separando o planejamento da execução e comparando com LLMs aumentados por ferramentas. Grande parte do ganho do CoT vem da melhoria na execução simbólica, mas ele tem um desempenho inferior em relação ao uso de um solucionador simbólico. Nossos resultados indicam que o CoT pode ser aplicado seletivamente, mantendo o desempenho enquanto economiza custos de inferência. Além disso, eles sugerem a necessidade de avançar além do CoT baseado em indução para novos paradigmas que aproveitem melhor a computação intermediária em toda a gama de aplicações de LLM.

English

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

Usar ou não usar CoT? A cadeia de pensamento ajuda principalmente em matemática e raciocínio simbólico.

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Resumo

Support