Raciocínio Certificado com Modelos de Linguagem
Certified Reasoning with Language Models
June 6, 2023
Autores: Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman
cs.AI
Resumo
Modelos de linguagem frequentemente alcançam maior precisão ao raciocinar passo a passo em tarefas complexas. No entanto, seu raciocínio pode ser falho, inconsistente ou depender de suposições prévias indesejáveis. Para abordar esses problemas, introduzimos uma classe de ferramentas para modelos de linguagem chamadas guias, que utilizam estado e restrições incrementais para orientar a geração. Um guia pode ser invocado pelo modelo para restringir sua própria geração a um conjunto de afirmações válidas fornecidas pela ferramenta. Por sua vez, as escolhas do modelo podem alterar o estado do guia. Mostramos como um sistema geral para raciocínio lógico pode ser usado como um guia, que chamamos de LogicGuide. Dado um problema de raciocínio em linguagem natural, um modelo pode formalizar suas suposições para o LogicGuide e, então, garantir que seus passos de raciocínio sejam sólidos. Em experimentos com os conjuntos de dados de raciocínio PrOntoQA e ProofWriter, o LogicGuide melhora significativamente o desempenho do GPT-3, GPT-3.5 Turbo e LLaMA (ganhos de precisão de até 35%). O LogicGuide também reduz drasticamente os efeitos de conteúdo: a interferência de suposições prévias e atuais da qual tanto humanos quanto modelos de linguagem têm demonstrado sofrer. Por fim, exploramos o aprimoramento do LLaMA 13B a partir de seu próprio raciocínio e descobrimos que o LogicGuide é crucial: ao treinar apenas com raciocínios autogerados certificados, o LLaMA pode se autoaperfeiçoar, evitando aprender com suas próprias alucinações.
English
Language models often achieve higher accuracy when reasoning step-by-step in
complex tasks. However, their reasoning can be unsound, inconsistent, or rely
on undesirable prior assumptions. To tackle these issues, we introduce a class
of tools for language models called guides that use state and incremental
constraints to guide generation. A guide can be invoked by the model to
constrain its own generation to a set of valid statements given by the tool. In
turn, the model's choices can change the guide's state. We show how a general
system for logical reasoning can be used as a guide, which we call LogicGuide.
Given a reasoning problem in natural language, a model can formalize its
assumptions for LogicGuide and then guarantee that its reasoning steps are
sound. In experiments with the PrOntoQA and ProofWriter reasoning datasets,
LogicGuide significantly improves the performance of GPT-3, GPT-3.5 Turbo and
LLaMA (accuracy gains up to 35%). LogicGuide also drastically reduces content
effects: the interference of prior and current assumptions that both humans and
language models have been shown to suffer from. Finally, we explore
bootstrapping LLaMA 13B from its own reasoning and find that LogicGuide is
critical: by training only on certified self-generated reasoning, LLaMA can
self-improve, avoiding learning from its own hallucinations.