Utiliser CoT ou non CoT ? La chaîne de pensée aide principalement en mathématiques et en raisonnement symbolique.
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
September 18, 2024
Auteurs: Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett
cs.AI
Résumé
La chaîne de pensée (CoT) via incitation est la méthode de facto pour solliciter les capacités de raisonnement des grands modèles de langage (LLM). Mais pour quels types de tâches ce "penser" supplémentaire est-il vraiment utile ? Pour analyser cela, nous avons mené une méta-analyse quantitative couvrant plus de 100 articles utilisant CoT et avons réalisé nos propres évaluations sur 20 ensembles de données à travers 14 modèles. Nos résultats montrent que CoT apporte des avantages de performance significatifs principalement sur des tâches impliquant des mathématiques ou de la logique, avec des gains beaucoup plus faibles sur d'autres types de tâches. Sur MMLU, générer directement la réponse sans CoT conduit à une précision presque identique à celle de CoT sauf si la question ou la réponse du modèle contient un signe égal, indiquant des opérations symboliques et de raisonnement. Suivant cette découverte, nous analysons le comportement de CoT sur ces problèmes en séparant la planification et l'exécution et en comparant avec des LLMs augmentés d'outils. Une grande partie de l'amélioration de CoT provient de l'exécution symbolique, mais elle est moins performante par rapport à l'utilisation d'un solveur symbolique. Nos résultats indiquent que CoT peut être appliqué de manière sélective, maintenant les performances tout en réduisant les coûts d'inférence. De plus, ils suggèrent la nécessité de passer des CoT basés sur des incitations à de nouveaux paradigmes qui exploitent mieux le calcul intermédiaire à travers toute la gamme des applications des LLM.
English
Chain-of-thought (CoT) via prompting is the de facto method for eliciting
reasoning capabilities from large language models (LLMs). But for what kinds of
tasks is this extra ``thinking'' really helpful? To analyze this, we conducted
a quantitative meta-analysis covering over 100 papers using CoT and ran our own
evaluations of 20 datasets across 14 models. Our results show that CoT gives
strong performance benefits primarily on tasks involving math or logic, with
much smaller gains on other types of tasks. On MMLU, directly generating the
answer without CoT leads to almost identical accuracy as CoT unless the
question or model's response contains an equals sign, indicating symbolic
operations and reasoning. Following this finding, we analyze the behavior of
CoT on these problems by separating planning and execution and comparing
against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic
execution, but it underperforms relative to using a symbolic solver. Our
results indicate that CoT can be applied selectively, maintaining performance
while saving inference costs. Furthermore, they suggest a need to move beyond
prompt-based CoT to new paradigms that better leverage intermediate computation
across the whole range of LLM applications.Summary
AI-Generated Summary