Tokens de Cadeia de Pensamento são Variáveis de Programação de Computador

Resumo

A cadeia de pensamentos (Chain-of-Thoughts, CoT) exige que grandes modelos de linguagem (LLMs) gerem etapas intermediárias antes de chegar à resposta final e tem se mostrado eficaz para ajudar LLMs a resolver tarefas complexas de raciocínio. No entanto, o mecanismo interno da CoT ainda permanece amplamente desconhecido. Neste artigo, estudamos empiricamente o papel dos tokens da CoT em LLMs em duas tarefas composicionais: multiplicação de múltiplos dígitos e programação dinâmica. Embora a CoT seja essencial para resolver esses problemas, descobrimos que preservar apenas os tokens que armazenam resultados intermediários alcançaria um desempenho comparável. Além disso, observamos que armazenar resultados intermediários em uma forma latente alternativa não afetará o desempenho do modelo. Também intervimos aleatoriamente em alguns valores da CoT e notamos que os tokens subsequentes da CoT e a resposta final mudariam correspondentemente. Essas descobertas sugerem que os tokens da CoT podem funcionar como variáveis em programas de computador, mas com possíveis desvantagens, como atalhos não intencionais e limites de complexidade computacional entre os tokens. O código e os dados estão disponíveis em https://github.com/solitaryzero/CoTs_are_Variables.

English

Chain-of-thoughts (CoT) requires large language models (LLMs) to generate intermediate steps before reaching the final answer, and has been proven effective to help LLMs solve complex reasoning tasks. However, the inner mechanism of CoT still remains largely unclear. In this paper, we empirically study the role of CoT tokens in LLMs on two compositional tasks: multi-digit multiplication and dynamic programming. While CoT is essential for solving these problems, we find that preserving only tokens that store intermediate results would achieve comparable performance. Furthermore, we observe that storing intermediate results in an alternative latent form will not affect model performance. We also randomly intervene some values in CoT, and notice that subsequent CoT tokens and the final answer would change correspondingly. These findings suggest that CoT tokens may function like variables in computer programs but with potential drawbacks like unintended shortcuts and computational complexity limits between tokens. The code and data are available at https://github.com/solitaryzero/CoTs_are_Variables.

Tokens de Cadeia de Pensamento são Variáveis de Programação de Computador

Chain-of-Thought Tokens are Computer Program Variables

Resumo

Support