ChatPaper.aiChatPaper

L'ordre des prémisses importe dans le raisonnement avec les grands modèles de langage.

Premise Order Matters in Reasoning with Large Language Models

February 14, 2024
Auteurs: Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des performances remarquables en matière de raisonnement dans divers domaines. Cependant, dans le domaine des tâches de raisonnement, nous découvrons une fragilité : les LLMs sont étonnamment sensibles à l'ordre des prémisses, bien que cet ordre ne modifie pas la tâche sous-jacente. En particulier, nous observons que les LLMs obtiennent les meilleures performances lorsque l'ordre des prémisses correspond au contexte requis dans les étapes intermédiaires du raisonnement. Par exemple, dans les tâches de raisonnement déductif, présenter les prémisses dans le même ordre que la preuve de référence dans l'invite (par opposition à un ordre aléatoire) augmente considérablement la précision du modèle. Nous examinons d'abord l'effet de l'ordre des prémisses sur le raisonnement déductif pour une variété de LLMs, et notre évaluation montre que la permutation de l'ordre des prémisses peut entraîner une baisse de performance de plus de 30 %. De plus, nous publions le benchmark R-GSM, basé sur GSM8K, pour étudier l'effet de l'ordre sur la résolution de problèmes mathématiques, et nous observons à nouveau une baisse significative de la précision par rapport au benchmark GSM8K original.
English
Large language models (LLMs) have accomplished remarkable reasoning performance in various domains. However, in the domain of reasoning tasks, we discover a frailty: LLMs are surprisingly brittle to the ordering of the premises, despite the fact that such ordering does not alter the underlying task. In particular, we observe that LLMs achieve the best performance when the premise order aligns with the context required in intermediate reasoning steps. For example, in deductive reasoning tasks, presenting the premises in the same order as the ground truth proof in the prompt (as opposed to random ordering) drastically increases the model's accuracy. We first examine the effect of premise ordering on deductive reasoning on a variety of LLMs, and our evaluation shows that permuting the premise order can cause a performance drop of over 30%. In addition, we release the benchmark R-GSM, based on GSM8K, to examine the ordering effect for mathematical problem-solving, and we again observe a significant drop in accuracy, relative to the original GSM8K benchmark.

Summary

AI-Generated Summary

PDF293December 15, 2024