L'Impact de la Longueur des Étapes de Raisonnement sur les Grands Modèles de Langage
The Impact of Reasoning Step Length on Large Language Models
January 10, 2024
Auteurs: Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du
cs.AI
Résumé
La Chaîne de Pensée (Chain of Thought, CoT) joue un rôle crucial dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLMs). Cependant, la corrélation entre l'efficacité de la CoT et la longueur des étapes de raisonnement dans les prompts reste largement méconnue. Pour éclaircir ce point, nous avons mené plusieurs expériences empiriques afin d'explorer ces relations. Plus précisément, nous avons conçu des expériences qui étendent et compressent les étapes de raisonnement dans les démonstrations de CoT, tout en maintenant constants tous les autres facteurs. Voici nos principales découvertes.
Premièrement, les résultats indiquent qu'allonger les étapes de raisonnement dans les prompts, même sans ajouter de nouvelles informations, améliore considérablement les capacités de raisonnement des LLMs sur plusieurs jeux de données. À l'inverse, raccourcir ces étapes, même en conservant les informations clés, diminue significativement les performances de raisonnement des modèles. Cette découverte souligne l'importance du nombre d'étapes dans les prompts de CoT et fournit des conseils pratiques pour mieux exploiter le potentiel des LLMs dans des scénarios de résolution de problèmes complexes.
Deuxièmement, nous avons également étudié la relation entre la performance de la CoT et les justifications utilisées dans les démonstrations. Étonnamment, les résultats montrent que même des justifications incorrectes peuvent produire des résultats favorables si elles maintiennent une longueur d'inférence suffisante.
Troisièmement, nous avons observé que les avantages d'augmenter les étapes de raisonnement dépendent de la tâche : les tâches plus simples nécessitent moins d'étapes, tandis que les tâches complexes bénéficient significativement de séquences d'inférence plus longues.
English
Chain of Thought (CoT) is significant in improving the reasoning abilities of
large language models (LLMs). However, the correlation between the
effectiveness of CoT and the length of reasoning steps in prompts remains
largely unknown. To shed light on this, we have conducted several empirical
experiments to explore the relations. Specifically, we design experiments that
expand and compress the rationale reasoning steps within CoT demonstrations,
while keeping all other factors constant. We have the following key findings.
First, the results indicate that lengthening the reasoning steps in prompts,
even without adding new information into the prompt, considerably enhances
LLMs' reasoning abilities across multiple datasets. Alternatively, shortening
the reasoning steps, even while preserving the key information, significantly
diminishes the reasoning abilities of models. This finding highlights the
importance of the number of steps in CoT prompts and provides practical
guidance to make better use of LLMs' potential in complex problem-solving
scenarios. Second, we also investigated the relationship between the
performance of CoT and the rationales used in demonstrations. Surprisingly, the
result shows that even incorrect rationales can yield favorable outcomes if
they maintain the requisite length of inference. Third, we observed that the
advantages of increasing reasoning steps are task-dependent: simpler tasks
require fewer steps, whereas complex tasks gain significantly from longer
inference sequences.