Die Reihenfolge der Prämissen beeinflusst das Schließen mit großen Sprachmodellen.
Premise Order Matters in Reasoning with Large Language Models
February 14, 2024
papers.authors: Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen in verschiedenen Domänen der logischen Schlussfolgerung erzielt. Allerdings entdecken wir in diesem Bereich eine Schwäche: LLMs sind überraschend anfällig für die Reihenfolge der Prämissen, obwohl diese Reihenfolge die zugrunde liegende Aufgabe nicht verändert. Insbesondere beobachten wir, dass LLMs die beste Leistung erbringen, wenn die Reihenfolge der Prämissen mit dem Kontext übereinstimmt, der in den Zwischenschritten der Schlussfolgerung erforderlich ist. Beispielsweise steigt die Genauigkeit des Modells bei deduktiven Schlussfolgerungsaufgaben drastisch, wenn die Prämissen in der gleichen Reihenfolge wie im Beweis der Grundwahrheit im Prompt präsentiert werden (im Gegensatz zu einer zufälligen Reihenfolge). Wir untersuchen zunächst den Einfluss der Prämissenreihenfolge auf die deduktive Schlussfolgerung bei verschiedenen LLMs, und unsere Auswertung zeigt, dass eine Permutation der Prämissenreihenfolge zu einem Leistungsabfall von über 30 % führen kann. Darüber hinaus veröffentlichen wir den Benchmark R-GSM, basierend auf GSM8K, um den Einfluss der Reihenfolge auf die mathematische Problemlösung zu untersuchen, und auch hier beobachten wir einen signifikanten Genauigkeitsrückgang im Vergleich zum ursprünglichen GSM8K-Benchmark.
English
Large language models (LLMs) have accomplished remarkable reasoning
performance in various domains. However, in the domain of reasoning tasks, we
discover a frailty: LLMs are surprisingly brittle to the ordering of the
premises, despite the fact that such ordering does not alter the underlying
task. In particular, we observe that LLMs achieve the best performance when the
premise order aligns with the context required in intermediate reasoning steps.
For example, in deductive reasoning tasks, presenting the premises in the same
order as the ground truth proof in the prompt (as opposed to random ordering)
drastically increases the model's accuracy. We first examine the effect of
premise ordering on deductive reasoning on a variety of LLMs, and our
evaluation shows that permuting the premise order can cause a performance drop
of over 30%. In addition, we release the benchmark R-GSM, based on GSM8K, to
examine the ordering effect for mathematical problem-solving, and we again
observe a significant drop in accuracy, relative to the original GSM8K
benchmark.