ChatPaper.aiChatPaper

Wel of niet CoT'en? Keten-van-gedachten helpt voornamelijk bij wiskundig en symbolisch redeneren.

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

September 18, 2024
Auteurs: Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett
cs.AI

Samenvatting

Keten-van-gedachten (CoT) via aanmoediging is de facto de methode voor het oproepen van redeneervermogen van grote taalmodellen (LLM's). Maar voor wat voor soort taken is dit extra "denken" echt nuttig? Om dit te analyseren, hebben we een kwantitatieve meta-analyse uitgevoerd die meer dan 100 papers bestrijkt die CoT gebruiken en hebben we onze eigen evaluaties uitgevoerd van 20 datasets over 14 modellen. Onze resultaten tonen aan dat CoT sterke prestatievoordelen biedt voornamelijk bij taken die wiskunde of logica omvatten, met veel kleinere winsten bij andere soorten taken. Bij MMLU leidt het rechtstreeks genereren van het antwoord zonder CoT bijna tot identieke nauwkeurigheid als met CoT, tenzij de vraag of het antwoord van het model een gelijkteken bevat, wat wijst op symbolische bewerkingen en redenering. Naar aanleiding van deze bevinding analyseren we het gedrag van CoT bij deze problemen door planning en uitvoering te scheiden en te vergelijken met tool-ondersteunde LLM's. Een groot deel van de winst van CoT komt voort uit het verbeteren van symbolische uitvoering, maar het presteert minder goed in vergelijking met het gebruik van een symbolische oplosser. Onze resultaten geven aan dat CoT selectief kan worden toegepast, waarbij prestaties worden behouden terwijl inferentiekosten worden bespaard. Bovendien suggereren ze de noodzaak om voorbij op prompt gebaseerde CoT te gaan naar nieuwe paradigma's die beter gebruikmaken van tussentijdse berekening over het hele scala van LLM-toepassingen.
English
Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

Summary

AI-Generated Summary

PDF393November 16, 2024