大規模言語モデルにおける推論ステップ長の影響
The Impact of Reasoning Step Length on Large Language Models
January 10, 2024
著者: Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du
cs.AI
要旨
Chain of Thought(CoT)は、大規模言語モデル(LLM)の推論能力を向上させる上で重要な役割を果たします。しかし、CoTの有効性とプロンプト内の推論ステップの長さとの相関関係は、依然としてほとんど解明されていません。この問題を明らかにするため、私たちはいくつかの実証実験を行い、その関係を探りました。具体的には、CoTのデモンストレーション内の根拠となる推論ステップを拡張および圧縮する実験を設計し、他のすべての要素を一定に保ちました。その結果、以下の重要な知見が得られました。
第一に、プロンプト内の推論ステップを長くすることは、たとえプロンプトに新しい情報を追加しなくても、複数のデータセットにわたってLLMの推論能力を大幅に向上させることが示されました。逆に、推論ステップを短縮することは、重要な情報を保持していたとしても、モデルの推論能力を著しく低下させました。この発見は、CoTプロンプトにおけるステップ数の重要性を強調し、複雑な問題解決シナリオでLLMの潜在能力をより効果的に活用するための実践的な指針を提供します。
第二に、CoTのパフォーマンスとデモンストレーションで使用される根拠との関係も調査しました。驚くべきことに、結果は、誤った根拠であっても、必要な推論の長さを維持していれば、良好な結果をもたらす可能性があることを示しました。
第三に、推論ステップを増やすことの利点はタスク依存性があることが観察されました。単純なタスクでは少ないステップで済むのに対し、複雑なタスクでは長い推論シーケンスから大きな恩恵を受けることがわかりました。
English
Chain of Thought (CoT) is significant in improving the reasoning abilities of
large language models (LLMs). However, the correlation between the
effectiveness of CoT and the length of reasoning steps in prompts remains
largely unknown. To shed light on this, we have conducted several empirical
experiments to explore the relations. Specifically, we design experiments that
expand and compress the rationale reasoning steps within CoT demonstrations,
while keeping all other factors constant. We have the following key findings.
First, the results indicate that lengthening the reasoning steps in prompts,
even without adding new information into the prompt, considerably enhances
LLMs' reasoning abilities across multiple datasets. Alternatively, shortening
the reasoning steps, even while preserving the key information, significantly
diminishes the reasoning abilities of models. This finding highlights the
importance of the number of steps in CoT prompts and provides practical
guidance to make better use of LLMs' potential in complex problem-solving
scenarios. Second, we also investigated the relationship between the
performance of CoT and the rationales used in demonstrations. Surprisingly, the
result shows that even incorrect rationales can yield favorable outcomes if
they maintain the requisite length of inference. Third, we observed that the
advantages of increasing reasoning steps are task-dependent: simpler tasks
require fewer steps, whereas complex tasks gain significantly from longer
inference sequences.