L'ordre des prémisses importe dans le raisonnement avec les grands modèles de langage.
Premise Order Matters in Reasoning with Large Language Models
February 14, 2024
Auteurs: Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des performances remarquables en matière de raisonnement dans divers domaines. Cependant, dans le domaine des tâches de raisonnement, nous découvrons une fragilité : les LLMs sont étonnamment sensibles à l'ordre des prémisses, bien que cet ordre ne modifie pas la tâche sous-jacente. En particulier, nous observons que les LLMs obtiennent les meilleures performances lorsque l'ordre des prémisses correspond au contexte requis dans les étapes intermédiaires du raisonnement. Par exemple, dans les tâches de raisonnement déductif, présenter les prémisses dans le même ordre que la preuve de référence dans l'invite (par opposition à un ordre aléatoire) augmente considérablement la précision du modèle. Nous examinons d'abord l'effet de l'ordre des prémisses sur le raisonnement déductif pour une variété de LLMs, et notre évaluation montre que la permutation de l'ordre des prémisses peut entraîner une baisse de performance de plus de 30 %. De plus, nous publions le benchmark R-GSM, basé sur GSM8K, pour étudier l'effet de l'ordre sur la résolution de problèmes mathématiques, et nous observons à nouveau une baisse significative de la précision par rapport au benchmark GSM8K original.
English
Large language models (LLMs) have accomplished remarkable reasoning
performance in various domains. However, in the domain of reasoning tasks, we
discover a frailty: LLMs are surprisingly brittle to the ordering of the
premises, despite the fact that such ordering does not alter the underlying
task. In particular, we observe that LLMs achieve the best performance when the
premise order aligns with the context required in intermediate reasoning steps.
For example, in deductive reasoning tasks, presenting the premises in the same
order as the ground truth proof in the prompt (as opposed to random ordering)
drastically increases the model's accuracy. We first examine the effect of
premise ordering on deductive reasoning on a variety of LLMs, and our
evaluation shows that permuting the premise order can cause a performance drop
of over 30%. In addition, we release the benchmark R-GSM, based on GSM8K, to
examine the ordering effect for mathematical problem-solving, and we again
observe a significant drop in accuracy, relative to the original GSM8K
benchmark.Summary
AI-Generated Summary