プロンプトなしの連鎖的思考推論Chain-of-Thought Reasoning Without Prompting
大規模言語モデル(LLM)の推論能力を向上させるにあたり、従来の研究は主にfew-shotやzero-shotの連鎖的思考(CoT)プロンプティングといった特定のプロンプト技術に焦点を当ててきました。これらの方法は効果的ではあるものの、多くの場合、手動によるプロンプトエンジニアリングを必要とします。本研究では、新たなアプローチを取ります。つまり、LLMはプロンプトなしでも効果的に推論できるのか、という問いを立てます。私たちの研究結果は、興味深いことに、事前学習済みのLLMから単にデコードプロセスを変更するだけでCoT推論パスを引き出せることを明らかにしました。従来の貪欲デコードではなく、トップkの代替トークンを調査することで、CoTパスがこれらのシーケンスに頻繁に内在していることを発見しました。このアプローチは、プロンプトの交絡因子を回避するだけでなく、LLMの本質的な推論能力を評価することを可能にします。さらに、デコードパスにCoTが存在することは、モデルのデコードされた回答に対する信頼度の高さと相関があることを観察しました。この信頼度メトリックは、CoTパスと非CoTパスを効果的に区別します。さまざまな推論ベンチマークでの大規模な実証研究により、提案されたCoTデコードが標準的な貪欲デコードを大幅に上回ることを示しています。