I token Chain-of-Thought sono variabili di programmazione informatica.

Abstract

La catena di pensieri (Chain-of-Thoughts, CoT) richiede che i grandi modelli linguistici (Large Language Models, LLMs) generino passaggi intermedi prima di arrivare alla risposta finale, ed è stato dimostrato efficace per aiutare gli LLMs a risolvere compiti di ragionamento complessi. Tuttavia, il meccanismo interno della CoT rimane in gran parte poco chiaro. In questo articolo, studiamo empiricamente il ruolo dei token CoT negli LLMs su due compiti composizionali: la moltiplicazione a più cifre e la programmazione dinamica. Sebbene la CoT sia essenziale per risolvere questi problemi, scopriamo che preservare solo i token che memorizzano risultati intermedi permetterebbe di ottenere prestazioni comparabili. Inoltre, osserviamo che memorizzare i risultati intermedi in una forma latente alternativa non influisce sulle prestazioni del modello. Interveniamo anche casualmente su alcuni valori nella CoT, e notiamo che i token CoT successivi e la risposta finale cambiano di conseguenza. Questi risultati suggeriscono che i token CoT potrebbero funzionare come variabili nei programmi per computer, ma con potenziali svantaggi come scorciatoie non intenzionali e limiti di complessità computazionale tra i token. Il codice e i dati sono disponibili all'indirizzo https://github.com/solitaryzero/CoTs_are_Variables.

English

Chain-of-thoughts (CoT) requires large language models (LLMs) to generate intermediate steps before reaching the final answer, and has been proven effective to help LLMs solve complex reasoning tasks. However, the inner mechanism of CoT still remains largely unclear. In this paper, we empirically study the role of CoT tokens in LLMs on two compositional tasks: multi-digit multiplication and dynamic programming. While CoT is essential for solving these problems, we find that preserving only tokens that store intermediate results would achieve comparable performance. Furthermore, we observe that storing intermediate results in an alternative latent form will not affect model performance. We also randomly intervene some values in CoT, and notice that subsequent CoT tokens and the final answer would change correspondingly. These findings suggest that CoT tokens may function like variables in computer programs but with potential drawbacks like unintended shortcuts and computational complexity limits between tokens. The code and data are available at https://github.com/solitaryzero/CoTs_are_Variables.

I token Chain-of-Thought sono variabili di programmazione informatica.

Chain-of-Thought Tokens are Computer Program Variables

Abstract

Support