言語モデルは論理ソルバーとして機能し得る
Language Models can be Logical Solvers
November 10, 2023
著者: Jiazhan Feng, Ruochen Xu, Junheng Hao, Hiteshi Sharma, Yelong Shen, Dongyan Zhao, Weizhu Chen
cs.AI
要旨
論理的推論は、人間の知性の基本的な側面であり、問題解決や意思決定といったタスクの重要な構成要素です。近年の進歩により、大規模言語モデル(LLM)が推論能力を発揮する可能性が示されていますが、複雑な論理的推論は依然として課題となっています。最新の手法であるソルバー拡張言語モデルは、自然言語で記述された論理問題をまずシンボリック表現に解析し、その後外部の論理ソルバーにそのシンボリック表現を入力して答えを出力します。その性能は非常に高いものの、解析エラーが発生すると、外部の論理ソルバーの実行が失敗し、論理問題に対する答えが得られないという問題があります。本論文では、LoGiPTという新しい言語モデルを紹介します。LoGiPTは、論理ソルバーの推論プロセスを直接模倣し、ソルバーの構文と文法に厳密に従うことで解析エラーを回避します。LoGiPTは、演繹ソルバーの不可視な推論プロセスを明らかにし、それを基に新たに構築された指示チューニングデータセットで微調整されています。2つの公開された演繹推論データセットでの実験結果は、LoGiPTが最新のソルバー拡張言語モデルや、ChatGPTやGPT-4のような競争力のあるLLMに対するFew-shotプロンプティング手法を上回る性能を示すことを実証しています。
English
Logical reasoning is a fundamental aspect of human intelligence and a key
component of tasks like problem-solving and decision-making. Recent
advancements have enabled Large Language Models (LLMs) to potentially exhibit
reasoning capabilities, but complex logical reasoning remains a challenge. The
state-of-the-art, solver-augmented language models, use LLMs to parse natural
language logical questions into symbolic representations first and then adopt
external logical solvers to take in the symbolic representations and output the
answers. Despite their impressive performance, any parsing errors will
inevitably result in the failure of the execution of the external logical
solver and no answer to the logical questions. In this paper, we introduce
LoGiPT, a novel language model that directly emulates the reasoning processes
of logical solvers and bypasses the parsing errors by learning to strict
adherence to solver syntax and grammar. LoGiPT is fine-tuned on a newly
constructed instruction-tuning dataset derived from revealing and refining the
invisible reasoning process of deductive solvers. Experimental results on two
public deductive reasoning datasets demonstrate that LoGiPT outperforms
state-of-the-art solver-augmented LMs and few-shot prompting methods on
competitive LLMs like ChatGPT or GPT-4.