L'Impact de la Longueur des Étapes de Raisonnement sur les Grands Modèles de Langage

papers.abstract

La Chaîne de Pensée (Chain of Thought, CoT) joue un rôle crucial dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLMs). Cependant, la corrélation entre l'efficacité de la CoT et la longueur des étapes de raisonnement dans les prompts reste largement méconnue. Pour éclaircir ce point, nous avons mené plusieurs expériences empiriques afin d'explorer ces relations. Plus précisément, nous avons conçu des expériences qui étendent et compressent les étapes de raisonnement dans les démonstrations de CoT, tout en maintenant constants tous les autres facteurs. Voici nos principales découvertes. Premièrement, les résultats indiquent qu'allonger les étapes de raisonnement dans les prompts, même sans ajouter de nouvelles informations, améliore considérablement les capacités de raisonnement des LLMs sur plusieurs jeux de données. À l'inverse, raccourcir ces étapes, même en conservant les informations clés, diminue significativement les performances de raisonnement des modèles. Cette découverte souligne l'importance du nombre d'étapes dans les prompts de CoT et fournit des conseils pratiques pour mieux exploiter le potentiel des LLMs dans des scénarios de résolution de problèmes complexes. Deuxièmement, nous avons également étudié la relation entre la performance de la CoT et les justifications utilisées dans les démonstrations. Étonnamment, les résultats montrent que même des justifications incorrectes peuvent produire des résultats favorables si elles maintiennent une longueur d'inférence suffisante. Troisièmement, nous avons observé que les avantages d'augmenter les étapes de raisonnement dépendent de la tâche : les tâches plus simples nécessitent moins d'étapes, tandis que les tâches complexes bénéficient significativement de séquences d'inférence plus longues.

English

Chain of Thought (CoT) is significant in improving the reasoning abilities of large language models (LLMs). However, the correlation between the effectiveness of CoT and the length of reasoning steps in prompts remains largely unknown. To shed light on this, we have conducted several empirical experiments to explore the relations. Specifically, we design experiments that expand and compress the rationale reasoning steps within CoT demonstrations, while keeping all other factors constant. We have the following key findings. First, the results indicate that lengthening the reasoning steps in prompts, even without adding new information into the prompt, considerably enhances LLMs' reasoning abilities across multiple datasets. Alternatively, shortening the reasoning steps, even while preserving the key information, significantly diminishes the reasoning abilities of models. This finding highlights the importance of the number of steps in CoT prompts and provides practical guidance to make better use of LLMs' potential in complex problem-solving scenarios. Second, we also investigated the relationship between the performance of CoT and the rationales used in demonstrations. Surprisingly, the result shows that even incorrect rationales can yield favorable outcomes if they maintain the requisite length of inference. Third, we observed that the advantages of increasing reasoning steps are task-dependent: simpler tasks require fewer steps, whereas complex tasks gain significantly from longer inference sequences.

L'Impact de la Longueur des Étapes de Raisonnement sur les Grands Modèles de Langage

The Impact of Reasoning Step Length on Large Language Models

papers.abstract

Support