Auto-Découverte : Les grands modèles de langage auto-composent des structures de raisonnement
Self-Discover: Large Language Models Self-Compose Reasoning Structures
February 6, 2024
Auteurs: Pei Zhou, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, Swaroop Mishra, Huaixiu Steven Zheng
cs.AI
Résumé
Nous présentons SELF-DISCOVER, un cadre général permettant aux LLM de découvrir par eux-mêmes les structures de raisonnement intrinsèques aux tâches pour résoudre des problèmes de raisonnement complexes qui s'avèrent difficiles pour les méthodes d’incitation classiques. Au cœur de ce cadre se trouve un processus d’auto-découverte où les LLM sélectionnent plusieurs modules de raisonnement atomiques, tels que la pensée critique et la pensée étape par étape, et les composent en une structure de raisonnement explicite que les LLM suivent lors du décodage. SELF-DISCOVER améliore considérablement les performances de GPT-4 et de PaLM 2 sur des benchmarks de raisonnement exigeants tels que BigBench-Hard, le raisonnement d’agents ancrés et MATH, avec des gains allant jusqu’à 32 % par rapport à la méthode Chain of Thought (CoT). De plus, SELF-DISCOVER surpasse des méthodes intensives en inférence comme CoT-Self-Consistency de plus de 20 %, tout en nécessitant 10 à 40 fois moins de calculs d’inférence. Enfin, nous montrons que les structures de raisonnement auto-découvertes sont universellement applicables à travers les familles de modèles : de PaLM 2-L à GPT-4, et de GPT-4 à Llama2, et partagent des similitudes avec les schémas de raisonnement humains.
English
We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the
task-intrinsic reasoning structures to tackle complex reasoning problems that
are challenging for typical prompting methods. Core to the framework is a
self-discovery process where LLMs select multiple atomic reasoning modules such
as critical thinking and step-by-step thinking, and compose them into an
explicit reasoning structure for LLMs to follow during decoding. SELF-DISCOVER
substantially improves GPT-4 and PaLM 2's performance on challenging reasoning
benchmarks such as BigBench-Hard, grounded agent reasoning, and MATH, by as
much as 32% compared to Chain of Thought (CoT). Furthermore, SELF-DISCOVER
outperforms inference-intensive methods such as CoT-Self-Consistency by more
than 20%, while requiring 10-40x fewer inference compute. Finally, we show that
the self-discovered reasoning structures are universally applicable across
model families: from PaLM 2-L to GPT-4, and from GPT-4 to Llama2, and share
commonalities with human reasoning patterns.