ChatPaper.aiChatPaper

L'ordine delle premesse è rilevante nel ragionamento con i modelli linguistici di grandi dimensioni.

Premise Order Matters in Reasoning with Large Language Models

February 14, 2024
Autori: Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto prestazioni notevoli nel ragionamento in vari domini. Tuttavia, nel contesto dei compiti di ragionamento, scopriamo una fragilità: gli LLM sono sorprendentemente sensibili all'ordine delle premesse, nonostante tale ordine non alteri il compito sottostante. In particolare, osserviamo che gli LLM raggiungono le migliori prestazioni quando l'ordine delle premesse si allinea con il contesto richiesto nei passaggi intermedi del ragionamento. Ad esempio, nei compiti di ragionamento deduttivo, presentare le premesse nello stesso ordine della prova di riferimento nel prompt (anziché in un ordine casuale) aumenta drasticamente l'accuratezza del modello. Esaminiamo innanzitutto l'effetto dell'ordine delle premesse sul ragionamento deduttivo in una varietà di LLM, e la nostra valutazione mostra che permutare l'ordine delle premesse può causare un calo delle prestazioni superiore al 30%. Inoltre, rilasciamo il benchmark R-GSM, basato su GSM8K, per esaminare l'effetto dell'ordine nella risoluzione di problemi matematici, e osserviamo nuovamente un calo significativo dell'accuratezza rispetto al benchmark originale GSM8K.
English
Large language models (LLMs) have accomplished remarkable reasoning performance in various domains. However, in the domain of reasoning tasks, we discover a frailty: LLMs are surprisingly brittle to the ordering of the premises, despite the fact that such ordering does not alter the underlying task. In particular, we observe that LLMs achieve the best performance when the premise order aligns with the context required in intermediate reasoning steps. For example, in deductive reasoning tasks, presenting the premises in the same order as the ground truth proof in the prompt (as opposed to random ordering) drastically increases the model's accuracy. We first examine the effect of premise ordering on deductive reasoning on a variety of LLMs, and our evaluation shows that permuting the premise order can cause a performance drop of over 30%. In addition, we release the benchmark R-GSM, based on GSM8K, to examine the ordering effect for mathematical problem-solving, and we again observe a significant drop in accuracy, relative to the original GSM8K benchmark.
PDF283December 15, 2024