Os Modelos de Linguagem são Raciocinadores Ocultos: Desbloqueando Capacidades de Raciocínio Latentes através de Auto-Recompensa
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding
November 6, 2024
Autores: Haolin Chen, Yihao Feng, Zuxin Liu, Weiran Yao, Akshara Prabhakar, Shelby Heinecke, Ricky Ho, Phil Mui, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) têm demonstrado capacidades impressionantes, mas ainda enfrentam dificuldades em tarefas de raciocínio complexas que exigem múltiplas etapas. Enquanto métodos baseados em prompts como Chain-of-Thought (CoT) podem melhorar o raciocínio do LLM no momento da inferência, otimizar as capacidades de raciocínio durante o treinamento continua sendo um desafio. Apresentamos o LaTent Reasoning Optimization (LaTRO), um framework fundamentado que formula o raciocínio como amostragem de uma distribuição latente e o otimiza por meio de abordagens variacionais. O LaTRO permite que os LLMs melhorem simultaneamente seu processo de raciocínio e capacidade de avaliar a qualidade do raciocínio, sem necessidade de feedback externo ou modelos de recompensa. Validamos o LaTRO por meio de experimentos nos conjuntos de dados GSM8K e ARC-Challenge usando múltiplas arquiteturas de modelo. No GSM8K, o LaTRO melhora a precisão de zero-shot em média 12,5% em relação aos modelos base e 9,6% em relação ao ajuste fino supervisionado em Phi-3.5-mini, Mistral-7B e Llama-3.1-8B. Nossas descobertas sugerem que os LLMs pré-treinados possuem capacidades de raciocínio latentes que podem ser desbloqueadas e aprimoradas por meio de nossa abordagem de otimização proposta de forma autônoma. O código do LaTRO está disponível em https://github.com/SalesforceAIResearch/LaTRO.
English
Large language models (LLMs) have shown impressive capabilities, but still
struggle with complex reasoning tasks requiring multiple steps. While
prompt-based methods like Chain-of-Thought (CoT) can improve LLM reasoning at
inference time, optimizing reasoning capabilities during training remains
challenging. We introduce LaTent Reasoning Optimization (LaTRO), a principled
framework that formulates reasoning as sampling from a latent distribution and
optimizes it via variational approaches. LaTRO enables LLMs to concurrently
improve both their reasoning process and ability to evaluate reasoning quality,
without requiring external feedback or reward models. We validate LaTRO through
experiments on GSM8K and ARC-Challenge datasets using multiple model
architectures. On GSM8K, LaTRO improves zero-shot accuracy by an average of
12.5% over base models and 9.6% over supervised fine-tuning across
Phi-3.5-mini, Mistral-7B, and Llama-3.1-8B. Our findings suggest that
pre-trained LLMs possess latent reasoning capabilities that can be unlocked and
enhanced through our proposed optimization approach in a self-improvement
manner. The code of LaTRO is available at
https://github.com/SalesforceAIResearch/LaTRO.