ChatPaper.aiChatPaper

CoT oder nicht CoT? Gedankenfolge hilft hauptsächlich bei mathematischem und symbolischem Denken.

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

September 18, 2024
Autoren: Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett
cs.AI

Zusammenfassung

Ketten-Denken (CoT) durch Aufforderung ist die Standardmethode zur Ermittlung von Denkfähigkeiten großer Sprachmodelle (LLMs). Doch für welche Arten von Aufgaben ist dieses zusätzliche "Denken" wirklich hilfreich? Um dies zu analysieren, führten wir eine quantitative Metaanalyse durch, die über 100 Arbeiten mit CoT abdeckt, und führten eigene Bewertungen von 20 Datensätzen über 14 Modelle durch. Unsere Ergebnisse zeigen, dass CoT hauptsächlich bei Aufgaben mit Mathematik oder Logik starke Leistungssteigerungen bringt, während die Vorteile bei anderen Aufgabentypen deutlich geringer ausfallen. Bei MMLU führt das direkte Generieren der Antwort ohne CoT zu fast identischer Genauigkeit wie mit CoT, es sei denn, die Frage oder die Antwort des Modells enthält ein Gleichheitszeichen, was symbolische Operationen und Denken anzeigt. Basierend auf dieser Erkenntnis analysieren wir das Verhalten von CoT bei diesen Problemen, indem wir Planung und Ausführung trennen und gegen werkzeugunterstützte LLMs vergleichen. Ein Großteil des Nutzens von CoT resultiert aus der Verbesserung der symbolischen Ausführung, jedoch schneidet es im Vergleich zur Verwendung eines symbolischen Lösers schlechter ab. Unsere Ergebnisse deuten darauf hin, dass CoT selektiv eingesetzt werden kann, um die Leistung zu erhalten und gleichzeitig Inferenzkosten zu sparen. Darüber hinaus legen sie nahe, dass es notwendig ist, über promptbasiertes CoT hinauszugehen und neue Paradigmen zu entwickeln, die die Zwischenberechnung über die gesamte Bandbreite von LLM-Anwendungen besser nutzen.
English
Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

Summary

AI-Generated Summary

PDF393November 16, 2024