Chain-of-Thought Tokens zijn variabelen in computerprogramma's.

Samenvatting

Chain-of-thoughts (CoT) vereist dat grote taalmodellen (LLMs) tussenstappen genereren voordat ze het uiteindelijke antwoord bereiken, en is bewezen effectief te zijn om LLMs te helpen bij het oplossen van complexe redeneertaken. Het interne mechanisme van CoT blijft echter grotendeels onduidelijk. In dit artikel bestuderen we empirisch de rol van CoT-tokens in LLMs bij twee compositionele taken: vermenigvuldiging van meerdere cijfers en dynamisch programmeren. Hoewel CoT essentieel is voor het oplossen van deze problemen, ontdekken we dat het behouden van alleen tokens die tussenresultaten opslaan, vergelijkbare prestaties oplevert. Bovendien observeren we dat het opslaan van tussenresultaten in een alternatieve latente vorm de modelprestaties niet beïnvloedt. We interveniëren ook willekeurig enkele waarden in CoT en merken op dat daaropvolgende CoT-tokens en het uiteindelijke antwoord dienovereenkomstig veranderen. Deze bevindingen suggereren dat CoT-tokens mogelijk functioneren als variabelen in computerprogramma's, maar met potentiële nadelen zoals onbedoelde shortcuts en beperkingen in de rekencomplexiteit tussen tokens. De code en gegevens zijn beschikbaar op https://github.com/solitaryzero/CoTs_are_Variables.

English

Chain-of-thoughts (CoT) requires large language models (LLMs) to generate intermediate steps before reaching the final answer, and has been proven effective to help LLMs solve complex reasoning tasks. However, the inner mechanism of CoT still remains largely unclear. In this paper, we empirically study the role of CoT tokens in LLMs on two compositional tasks: multi-digit multiplication and dynamic programming. While CoT is essential for solving these problems, we find that preserving only tokens that store intermediate results would achieve comparable performance. Furthermore, we observe that storing intermediate results in an alternative latent form will not affect model performance. We also randomly intervene some values in CoT, and notice that subsequent CoT tokens and the final answer would change correspondingly. These findings suggest that CoT tokens may function like variables in computer programs but with potential drawbacks like unintended shortcuts and computational complexity limits between tokens. The code and data are available at https://github.com/solitaryzero/CoTs_are_Variables.

Chain-of-Thought Tokens zijn variabelen in computerprogramma's.

Chain-of-Thought Tokens are Computer Program Variables

Samenvatting

Support