前提の順序は大規模言語モデルにおける推論において重要である
Premise Order Matters in Reasoning with Large Language Models
February 14, 2024
著者: Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou
cs.AI
要旨
大規模言語モデル(LLM)は、さまざまな領域で驚くべき推論性能を達成してきました。しかし、推論タスクの領域において、我々はある脆弱性を発見しました。前提の順序が変わってもタスクの本質は変わらないにもかかわらず、LLMはその順序に対して驚くほど脆いのです。特に、前提の順序が中間推論ステップで必要な文脈と一致する場合に、LLMは最高の性能を発揮することが観察されます。例えば、演繹的推論タスクでは、プロンプト内で前提をランダムな順序ではなく、正解の証明と同じ順序で提示すると、モデルの精度が劇的に向上します。我々はまず、さまざまなLLMにおいて、前提の順序が演繹的推論に及ぼす影響を調査し、前提の順序を入れ替えることで性能が30%以上低下することを確認しました。さらに、数学的問題解決における順序効果を調べるために、GSM8Kを基にしたベンチマークR-GSMを公開し、元のGSM8Kベンチマークと比較して精度が大幅に低下することを再確認しました。
English
Large language models (LLMs) have accomplished remarkable reasoning
performance in various domains. However, in the domain of reasoning tasks, we
discover a frailty: LLMs are surprisingly brittle to the ordering of the
premises, despite the fact that such ordering does not alter the underlying
task. In particular, we observe that LLMs achieve the best performance when the
premise order aligns with the context required in intermediate reasoning steps.
For example, in deductive reasoning tasks, presenting the premises in the same
order as the ground truth proof in the prompt (as opposed to random ordering)
drastically increases the model's accuracy. We first examine the effect of
premise ordering on deductive reasoning on a variety of LLMs, and our
evaluation shows that permuting the premise order can cause a performance drop
of over 30%. In addition, we release the benchmark R-GSM, based on GSM8K, to
examine the ordering effect for mathematical problem-solving, and we again
observe a significant drop in accuracy, relative to the original GSM8K
benchmark.Summary
AI-Generated Summary