Utiliser CoT ou non CoT ? La chaîne de pensée aide principalement en mathématiques et en raisonnement symbolique.

papers.abstract

La chaîne de pensée (CoT) via incitation est la méthode de facto pour solliciter les capacités de raisonnement des grands modèles de langage (LLM). Mais pour quels types de tâches ce "penser" supplémentaire est-il vraiment utile ? Pour analyser cela, nous avons mené une méta-analyse quantitative couvrant plus de 100 articles utilisant CoT et avons réalisé nos propres évaluations sur 20 ensembles de données à travers 14 modèles. Nos résultats montrent que CoT apporte des avantages de performance significatifs principalement sur des tâches impliquant des mathématiques ou de la logique, avec des gains beaucoup plus faibles sur d'autres types de tâches. Sur MMLU, générer directement la réponse sans CoT conduit à une précision presque identique à celle de CoT sauf si la question ou la réponse du modèle contient un signe égal, indiquant des opérations symboliques et de raisonnement. Suivant cette découverte, nous analysons le comportement de CoT sur ces problèmes en séparant la planification et l'exécution et en comparant avec des LLMs augmentés d'outils. Une grande partie de l'amélioration de CoT provient de l'exécution symbolique, mais elle est moins performante par rapport à l'utilisation d'un solveur symbolique. Nos résultats indiquent que CoT peut être appliqué de manière sélective, maintenant les performances tout en réduisant les coûts d'inférence. De plus, ils suggèrent la nécessité de passer des CoT basés sur des incitations à de nouveaux paradigmes qui exploitent mieux le calcul intermédiaire à travers toute la gamme des applications des LLM.

English

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

Utiliser CoT ou non CoT ? La chaîne de pensée aide principalement en mathématiques et en raisonnement symbolique.

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

papers.abstract

Support