ChatPaper.aiChatPaper

Self-Discover: Große Sprachmodelle erstellen selbstständig Argumentationsstrukturen

Self-Discover: Large Language Models Self-Compose Reasoning Structures

February 6, 2024
Autoren: Pei Zhou, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, Swaroop Mishra, Huaixiu Steven Zheng
cs.AI

Zusammenfassung

Wir stellen SELF-DISCOVER vor, ein allgemeines Framework, das es großen Sprachmodellen (LLMs) ermöglicht, selbstständig die aufgabenintrinsischen Denkstrukturen zu entdecken, um komplexe Denkprobleme zu lösen, die für herkömmliche Prompting-Methoden herausfordernd sind. Kern des Frameworks ist ein Selbstentdeckungsprozess, bei dem LLMs mehrere atomare Denkmodule wie kritisches Denken und schrittweises Denken auswählen und sie zu einer expliziten Denkstruktur kombinieren, die die LLMs während der Dekodierung befolgen. SELF-DISCOVER verbessert die Leistung von GPT-4 und PaLM 2 auf anspruchsvollen Denkbenchmarks wie BigBench-Hard, begründeter Agentenlogik und MATH erheblich – um bis zu 32 % im Vergleich zu Chain of Thought (CoT). Darüber hinaus übertrifft SELF-DISCOVER rechenintensive Methoden wie CoT-Self-Consistency um mehr als 20 %, während es 10-40 Mal weniger Rechenleistung für die Inferenz benötigt. Schließlich zeigen wir, dass die selbstentdeckten Denkstrukturen universell anwendbar sind – über Modellfamilien hinweg: von PaLM 2-L zu GPT-4 und von GPT-4 zu Llama2 – und Gemeinsamkeiten mit menschlichen Denkmustern aufweisen.
English
We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the task-intrinsic reasoning structures to tackle complex reasoning problems that are challenging for typical prompting methods. Core to the framework is a self-discovery process where LLMs select multiple atomic reasoning modules such as critical thinking and step-by-step thinking, and compose them into an explicit reasoning structure for LLMs to follow during decoding. SELF-DISCOVER substantially improves GPT-4 and PaLM 2's performance on challenging reasoning benchmarks such as BigBench-Hard, grounded agent reasoning, and MATH, by as much as 32% compared to Chain of Thought (CoT). Furthermore, SELF-DISCOVER outperforms inference-intensive methods such as CoT-Self-Consistency by more than 20%, while requiring 10-40x fewer inference compute. Finally, we show that the self-discovered reasoning structures are universally applicable across model families: from PaLM 2-L to GPT-4, and from GPT-4 to Llama2, and share commonalities with human reasoning patterns.
PDF11610December 15, 2024