Self-Discover: Große Sprachmodelle erstellen selbstständig Argumentationsstrukturen
Self-Discover: Large Language Models Self-Compose Reasoning Structures
February 6, 2024
Autoren: Pei Zhou, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, Swaroop Mishra, Huaixiu Steven Zheng
cs.AI
Zusammenfassung
Wir stellen SELF-DISCOVER vor, ein allgemeines Framework, das es großen Sprachmodellen (LLMs) ermöglicht, selbstständig die aufgabenintrinsischen Denkstrukturen zu entdecken, um komplexe Denkprobleme zu lösen, die für herkömmliche Prompting-Methoden herausfordernd sind. Kern des Frameworks ist ein Selbstentdeckungsprozess, bei dem LLMs mehrere atomare Denkmodule wie kritisches Denken und schrittweises Denken auswählen und sie zu einer expliziten Denkstruktur kombinieren, die die LLMs während der Dekodierung befolgen. SELF-DISCOVER verbessert die Leistung von GPT-4 und PaLM 2 auf anspruchsvollen Denkbenchmarks wie BigBench-Hard, begründeter Agentenlogik und MATH erheblich – um bis zu 32 % im Vergleich zu Chain of Thought (CoT). Darüber hinaus übertrifft SELF-DISCOVER rechenintensive Methoden wie CoT-Self-Consistency um mehr als 20 %, während es 10-40 Mal weniger Rechenleistung für die Inferenz benötigt. Schließlich zeigen wir, dass die selbstentdeckten Denkstrukturen universell anwendbar sind – über Modellfamilien hinweg: von PaLM 2-L zu GPT-4 und von GPT-4 zu Llama2 – und Gemeinsamkeiten mit menschlichen Denkmustern aufweisen.
English
We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the
task-intrinsic reasoning structures to tackle complex reasoning problems that
are challenging for typical prompting methods. Core to the framework is a
self-discovery process where LLMs select multiple atomic reasoning modules such
as critical thinking and step-by-step thinking, and compose them into an
explicit reasoning structure for LLMs to follow during decoding. SELF-DISCOVER
substantially improves GPT-4 and PaLM 2's performance on challenging reasoning
benchmarks such as BigBench-Hard, grounded agent reasoning, and MATH, by as
much as 32% compared to Chain of Thought (CoT). Furthermore, SELF-DISCOVER
outperforms inference-intensive methods such as CoT-Self-Consistency by more
than 20%, while requiring 10-40x fewer inference compute. Finally, we show that
the self-discovered reasoning structures are universally applicable across
model families: from PaLM 2-L to GPT-4, and from GPT-4 to Llama2, and share
commonalities with human reasoning patterns.