言語モデルを用いた検証済み推論
Certified Reasoning with Language Models
June 6, 2023
著者: Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman
cs.AI
要旨
言語モデルは、複雑なタスクにおいて段階的に推論を行うことで、より高い精度を達成することが多い。しかし、その推論は不適切であったり、一貫性がなかったり、望ましくない事前仮定に依存していたりすることがある。これらの問題に対処するため、我々は状態と増分的制約を用いて生成をガイドする「ガイド」と呼ばれるツールのクラスを導入する。ガイドはモデルによって呼び出され、モデル自身の生成をツールが提供する有効なステートメントの集合に制約することができる。逆に、モデルの選択がガイドの状態を変化させることもある。我々は、論理推論のための一般的なシステムをガイドとして使用する方法を示し、これをLogicGuideと呼ぶ。自然言語で与えられた推論問題に対して、モデルはLogicGuideのためにその仮定を形式化し、その推論ステップが健全であることを保証することができる。PrOntoQAおよびProofWriter推論データセットを用いた実験では、LogicGuideはGPT-3、GPT-3.5 Turbo、LLaMAの性能を大幅に向上させた(精度向上は最大35%)。また、LogicGuideはコンテンツ効果を劇的に低減する。コンテンツ効果とは、人間と言語モデルの両方が悩まされてきた、事前仮定と現在の仮定の干渉のことである。最後に、LLaMA 13Bを自身の推論からブートストラップする方法を探り、LogicGuideが重要であることを明らかにした。認証された自己生成推論のみを学習することで、LLaMAは自己改善が可能となり、自身の幻覚から学習することを回避できる。
English
Language models often achieve higher accuracy when reasoning step-by-step in
complex tasks. However, their reasoning can be unsound, inconsistent, or rely
on undesirable prior assumptions. To tackle these issues, we introduce a class
of tools for language models called guides that use state and incremental
constraints to guide generation. A guide can be invoked by the model to
constrain its own generation to a set of valid statements given by the tool. In
turn, the model's choices can change the guide's state. We show how a general
system for logical reasoning can be used as a guide, which we call LogicGuide.
Given a reasoning problem in natural language, a model can formalize its
assumptions for LogicGuide and then guarantee that its reasoning steps are
sound. In experiments with the PrOntoQA and ProofWriter reasoning datasets,
LogicGuide significantly improves the performance of GPT-3, GPT-3.5 Turbo and
LLaMA (accuracy gains up to 35%). LogicGuide also drastically reduces content
effects: the interference of prior and current assumptions that both humans and
language models have been shown to suffer from. Finally, we explore
bootstrapping LLaMA 13B from its own reasoning and find that LogicGuide is
critical: by training only on certified self-generated reasoning, LLaMA can
self-improve, avoiding learning from its own hallucinations.