CoT o non CoT? La catena del pensiero aiuta principalmente nella matematica e nel ragionamento simbolico.

Abstract

Il chain-of-thought (CoT) tramite sollecitazione è il metodo di fatto per estrarre le capacità di ragionamento dai grandi modelli linguistici (LLM). Ma per quali tipi di compiti questo "pensiero" aggiuntivo è davvero utile? Per analizzarlo, abbiamo condotto un'analisi meta-quantitativa che copre oltre 100 articoli che utilizzano CoT e abbiamo eseguito le nostre valutazioni su 20 set di dati attraverso 14 modelli. I nostri risultati mostrano che CoT fornisce forti benefici prestazionali principalmente su compiti che coinvolgono matematica o logica, con guadagni molto più piccoli su altri tipi di compiti. Su MMLU, generare direttamente la risposta senza CoT porta a un'accuratezza quasi identica a CoT a meno che la domanda o la risposta del modello contenga un segno di uguale, indicando operazioni e ragionamenti simbolici. Seguendo questa scoperta, analizziamo il comportamento di CoT su questi problemi separando la pianificazione dall'esecuzione e confrontando con LLM potenziati da strumenti. Gran parte del guadagno di CoT deriva dal miglioramento dell'esecuzione simbolica, ma risulta meno efficiente rispetto all'uso di un risolutore simbolico. I nostri risultati indicano che CoT può essere applicato selettivamente, mantenendo le prestazioni e risparmiando costi di inferenza. Inoltre, suggeriscono la necessità di andare oltre il CoT basato su sollecitazione verso nuovi paradigmi che sfruttino meglio la computazione intermedia in tutta la gamma delle applicazioni di LLM.

English

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

CoT o non CoT? La catena del pensiero aiuta principalmente nella matematica e nel ragionamento simbolico.

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Abstract

Summary

Support

Support