Los Tokens de Cadena de Pensamiento son Variables de Programas Informáticos

Resumen

El razonamiento en cadena (Chain-of-Thoughts, CoT) requiere que los modelos de lenguaje de gran escala (LLMs) generen pasos intermedios antes de llegar a la respuesta final, y ha demostrado ser efectivo para ayudar a los LLMs a resolver tareas de razonamiento complejo. Sin embargo, el mecanismo interno del CoT sigue siendo en gran medida desconocido. En este artículo, estudiamos empíricamente el papel de los tokens de CoT en los LLMs en dos tareas composicionales: multiplicación de múltiples dígitos y programación dinámica. Aunque el CoT es esencial para resolver estos problemas, encontramos que preservar solo los tokens que almacenan resultados intermedios lograría un rendimiento comparable. Además, observamos que almacenar resultados intermedios en una forma latente alternativa no afectará el rendimiento del modelo. También intervenimos aleatoriamente algunos valores en el CoT y notamos que los tokens de CoT posteriores y la respuesta final cambiarían en consecuencia. Estos hallazgos sugieren que los tokens de CoT pueden funcionar como variables en programas de computadora, pero con posibles desventajas como atajos no intencionados y límites de complejidad computacional entre tokens. El código y los datos están disponibles en https://github.com/solitaryzero/CoTs_are_Variables.

English

Chain-of-thoughts (CoT) requires large language models (LLMs) to generate intermediate steps before reaching the final answer, and has been proven effective to help LLMs solve complex reasoning tasks. However, the inner mechanism of CoT still remains largely unclear. In this paper, we empirically study the role of CoT tokens in LLMs on two compositional tasks: multi-digit multiplication and dynamic programming. While CoT is essential for solving these problems, we find that preserving only tokens that store intermediate results would achieve comparable performance. Furthermore, we observe that storing intermediate results in an alternative latent form will not affect model performance. We also randomly intervene some values in CoT, and notice that subsequent CoT tokens and the final answer would change correspondingly. These findings suggest that CoT tokens may function like variables in computer programs but with potential drawbacks like unintended shortcuts and computational complexity limits between tokens. The code and data are available at https://github.com/solitaryzero/CoTs_are_Variables.

Los Tokens de Cadena de Pensamiento son Variables de Programas Informáticos

Chain-of-Thought Tokens are Computer Program Variables

Resumen

Support