Große Sprachmodelle als analoge Denker

Zusammenfassung

Chain-of-thought (CoT) Prompting für Sprachmodelle zeigt beeindruckende Leistungen bei Aufgaben, die logisches Denken erfordern, benötigt jedoch typischerweise annotierte Beispiele des Denkprozesses. In dieser Arbeit stellen wir einen neuen Prompting-Ansatz vor, das Analogical Prompting, das entwickelt wurde, um den Denkprozess großer Sprachmodelle automatisch zu steuern. Inspiriert vom analogen Denken, einem kognitiven Prozess, bei dem Menschen auf relevante vergangene Erfahrungen zurückgreifen, um neue Probleme zu lösen, regt unser Ansatz Sprachmodelle dazu an, selbst relevante Beispiele oder Wissen im Kontext zu generieren, bevor sie das gegebene Problem lösen. Diese Methode bietet mehrere Vorteile: Sie macht die Annotation oder das Abrufen von Beispielen überflüssig, was Allgemeingültigkeit und Bequemlichkeit bietet; sie kann die generierten Beispiele und das Wissen auch auf jedes Problem zuschneiden, was Anpassungsfähigkeit ermöglicht. Experimentelle Ergebnisse zeigen, dass unser Ansatz 0-shot CoT und manuelles Few-shot CoT bei einer Vielzahl von Denkaufgaben übertrifft, einschließlich mathematischer Problemlösungen in GSM8K und MATH, Code-Generierung in Codeforces und anderen Denkaufgaben in BIG-Bench.

English

Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.

Große Sprachmodelle als analoge Denker

Large Language Models as Analogical Reasoners

Zusammenfassung

Support