ChatPaper.aiChatPaper

Self-Discover: Modelos de Linguagem de Grande Escala Autocompõem Estruturas de Raciocínio

Self-Discover: Large Language Models Self-Compose Reasoning Structures

February 6, 2024
Autores: Pei Zhou, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, Swaroop Mishra, Huaixiu Steven Zheng
cs.AI

Resumo

Apresentamos o SELF-DISCOVER, um framework geral para LLMs (Large Language Models) autodescobrirem estruturas de raciocínio intrínsecas à tarefa, a fim de resolver problemas complexos de raciocínio que são desafiadores para métodos de prompt tradicionais. O cerne do framework é um processo de autodescoberta no qual os LLMs selecionam múltiplos módulos de raciocínio atômico, como pensamento crítico e pensamento passo a passo, e os compõem em uma estrutura de raciocínio explícita para os LLMs seguirem durante a decodificação. O SELF-DISCOVER melhora substancialmente o desempenho do GPT-4 e do PaLM 2 em benchmarks desafiadores de raciocínio, como BigBench-Hard, raciocínio de agentes fundamentados e MATH, em até 32% em comparação com o Chain of Thought (CoT). Além disso, o SELF-DISCOVER supera métodos intensivos em inferência, como o CoT-Self-Consistency, em mais de 20%, enquanto requer 10 a 40 vezes menos computação de inferência. Por fim, mostramos que as estruturas de raciocínio autodescobertas são universalmente aplicáveis em diferentes famílias de modelos: desde o PaLM 2-L até o GPT-4, e do GPT-4 ao Llama2, e compartilham similaridades com padrões de raciocínio humano.
English
We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the task-intrinsic reasoning structures to tackle complex reasoning problems that are challenging for typical prompting methods. Core to the framework is a self-discovery process where LLMs select multiple atomic reasoning modules such as critical thinking and step-by-step thinking, and compose them into an explicit reasoning structure for LLMs to follow during decoding. SELF-DISCOVER substantially improves GPT-4 and PaLM 2's performance on challenging reasoning benchmarks such as BigBench-Hard, grounded agent reasoning, and MATH, by as much as 32% compared to Chain of Thought (CoT). Furthermore, SELF-DISCOVER outperforms inference-intensive methods such as CoT-Self-Consistency by more than 20%, while requiring 10-40x fewer inference compute. Finally, we show that the self-discovered reasoning structures are universally applicable across model families: from PaLM 2-L to GPT-4, and from GPT-4 to Llama2, and share commonalities with human reasoning patterns.
PDF11710February 8, 2026