Self-Discover: Grote Taalmodellen Zelf Samengestelde Redeneerstructuren
Self-Discover: Large Language Models Self-Compose Reasoning Structures
February 6, 2024
Auteurs: Pei Zhou, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, Swaroop Mishra, Huaixiu Steven Zheng
cs.AI
Samenvatting
We introduceren SELF-DISCOVER, een algemeen raamwerk waarmee LLMs zelf de taakintrinsieke redeneerstructuren kunnen ontdekken om complexe redeneerproblemen aan te pakken die uitdagend zijn voor typische prompting-methoden. Kern van het raamwerk is een zelfontdekkingsproces waarbij LLMs meerdere atomische redeneermodules selecteren, zoals kritisch denken en stap-voor-stap denken, en deze samenstellen tot een expliciete redeneerstructuur die LLMs kunnen volgen tijdens het decoderen. SELF-DISCOVER verbetert de prestaties van GPT-4 en PaLM 2 aanzienlijk op uitdagende redeneerbenchmarks zoals BigBench-Hard, grounded agent reasoning en MATH, met wel 32% in vergelijking met Chain of Thought (CoT). Bovendien presteert SELF-DISCOVER meer dan 20% beter dan inference-intensieve methoden zoals CoT-Self-Consistency, terwijl het 10-40x minder inference-rekenkracht vereist. Tot slot tonen we aan dat de zelfontdekte redeneerstructuren universeel toepasbaar zijn over verschillende modelfamilies: van PaLM 2-L tot GPT-4, en van GPT-4 tot Llama2, en dat ze overeenkomsten vertonen met menselijke redeneerpatronen.
English
We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the
task-intrinsic reasoning structures to tackle complex reasoning problems that
are challenging for typical prompting methods. Core to the framework is a
self-discovery process where LLMs select multiple atomic reasoning modules such
as critical thinking and step-by-step thinking, and compose them into an
explicit reasoning structure for LLMs to follow during decoding. SELF-DISCOVER
substantially improves GPT-4 and PaLM 2's performance on challenging reasoning
benchmarks such as BigBench-Hard, grounded agent reasoning, and MATH, by as
much as 32% compared to Chain of Thought (CoT). Furthermore, SELF-DISCOVER
outperforms inference-intensive methods such as CoT-Self-Consistency by more
than 20%, while requiring 10-40x fewer inference compute. Finally, we show that
the self-discovered reasoning structures are universally applicable across
model families: from PaLM 2-L to GPT-4, and from GPT-4 to Llama2, and share
commonalities with human reasoning patterns.