Raisonnement Certifié avec des Modèles de Langage
Certified Reasoning with Language Models
June 6, 2023
Auteurs: Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman
cs.AI
Résumé
Les modèles de langage obtiennent souvent une meilleure précision lorsqu'ils raisonnent étape par étape dans des tâches complexes. Cependant, leur raisonnement peut être incorrect, incohérent ou reposer sur des hypothèses préalables indésirables. Pour résoudre ces problèmes, nous introduisons une classe d'outils pour les modèles de langage appelés guides, qui utilisent un état et des contraintes incrémentales pour orienter la génération. Un guide peut être invoqué par le modèle pour contraindre sa propre génération à un ensemble d'énoncés valides fournis par l'outil. En retour, les choix du modèle peuvent modifier l'état du guide. Nous montrons comment un système général de raisonnement logique peut être utilisé comme guide, que nous appelons LogicGuide. Étant donné un problème de raisonnement en langage naturel, un modèle peut formaliser ses hypothèses pour LogicGuide et ainsi garantir que ses étapes de raisonnement sont valides. Dans des expériences avec les ensembles de données de raisonnement PrOntoQA et ProofWriter, LogicGuide améliore significativement les performances de GPT-3, GPT-3.5 Turbo et LLaMA (gains de précision allant jusqu'à 35 %). LogicGuide réduit également considérablement les effets de contenu : l'interférence des hypothèses préalables et actuelles dont les humains et les modèles de langage ont été montrés comme souffrant. Enfin, nous explorons l'auto-amélioration de LLaMA 13B à partir de son propre raisonnement et constatons que LogicGuide est essentiel : en s'entraînant uniquement sur un raisonnement auto-généré certifié, LLaMA peut s'auto-améliorer, évitant ainsi d'apprendre à partir de ses propres hallucinations.
English
Language models often achieve higher accuracy when reasoning step-by-step in
complex tasks. However, their reasoning can be unsound, inconsistent, or rely
on undesirable prior assumptions. To tackle these issues, we introduce a class
of tools for language models called guides that use state and incremental
constraints to guide generation. A guide can be invoked by the model to
constrain its own generation to a set of valid statements given by the tool. In
turn, the model's choices can change the guide's state. We show how a general
system for logical reasoning can be used as a guide, which we call LogicGuide.
Given a reasoning problem in natural language, a model can formalize its
assumptions for LogicGuide and then guarantee that its reasoning steps are
sound. In experiments with the PrOntoQA and ProofWriter reasoning datasets,
LogicGuide significantly improves the performance of GPT-3, GPT-3.5 Turbo and
LLaMA (accuracy gains up to 35%). LogicGuide also drastically reduces content
effects: the interference of prior and current assumptions that both humans and
language models have been shown to suffer from. Finally, we explore
bootstrapping LLaMA 13B from its own reasoning and find that LogicGuide is
critical: by training only on certified self-generated reasoning, LLaMA can
self-improve, avoiding learning from its own hallucinations.