Große Sprachmodelle als analoge Denker
Large Language Models as Analogical Reasoners
October 3, 2023
Autoren: Michihiro Yasunaga, Xinyun Chen, Yujia Li, Panupong Pasupat, Jure Leskovec, Percy Liang, Ed H. Chi, Denny Zhou
cs.AI
Zusammenfassung
Chain-of-thought (CoT) Prompting für Sprachmodelle zeigt beeindruckende Leistungen bei Aufgaben, die logisches Denken erfordern, benötigt jedoch typischerweise annotierte Beispiele des Denkprozesses. In dieser Arbeit stellen wir einen neuen Prompting-Ansatz vor, das Analogical Prompting, das entwickelt wurde, um den Denkprozess großer Sprachmodelle automatisch zu steuern. Inspiriert vom analogen Denken, einem kognitiven Prozess, bei dem Menschen auf relevante vergangene Erfahrungen zurückgreifen, um neue Probleme zu lösen, regt unser Ansatz Sprachmodelle dazu an, selbst relevante Beispiele oder Wissen im Kontext zu generieren, bevor sie das gegebene Problem lösen. Diese Methode bietet mehrere Vorteile: Sie macht die Annotation oder das Abrufen von Beispielen überflüssig, was Allgemeingültigkeit und Bequemlichkeit bietet; sie kann die generierten Beispiele und das Wissen auch auf jedes Problem zuschneiden, was Anpassungsfähigkeit ermöglicht. Experimentelle Ergebnisse zeigen, dass unser Ansatz 0-shot CoT und manuelles Few-shot CoT bei einer Vielzahl von Denkaufgaben übertrifft, einschließlich mathematischer Problemlösungen in GSM8K und MATH, Code-Generierung in Codeforces und anderen Denkaufgaben in BIG-Bench.
English
Chain-of-thought (CoT) prompting for language models demonstrates impressive
performance across reasoning tasks, but typically needs labeled exemplars of
the reasoning process. In this work, we introduce a new prompting approach,
Analogical Prompting, designed to automatically guide the reasoning process of
large language models. Inspired by analogical reasoning, a cognitive process in
which humans draw from relevant past experiences to tackle new problems, our
approach prompts language models to self-generate relevant exemplars or
knowledge in the context, before proceeding to solve the given problem. This
method presents several advantages: it obviates the need for labeling or
retrieving exemplars, offering generality and convenience; it can also tailor
the generated exemplars and knowledge to each problem, offering adaptability.
Experimental results show that our approach outperforms 0-shot CoT and manual
few-shot CoT in a variety of reasoning tasks, including math problem solving in
GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in
BIG-Bench.