無提示的思維連鎖推理Chain-of-Thought Reasoning Without Prompting
為了增強大型語言模型(LLMs)的推理能力,先前的研究主要集中在特定提示技術,如少樣本或零樣本的思維鏈提示(CoT)。這些方法雖然有效,但通常需要大量手動提示工程。我們的研究採用了一種新方法,提出了一個問題:LLMs是否可以在沒有提示的情況下有效地進行推理?我們的研究發現,有趣的是,通過簡單地改變解碼過程,可以從預訓練的LLMs中引出CoT推理路徑。我們不再使用傳統的貪婪解碼,而是研究了前k個替代標記,發現這些序列中經常存在CoT路徑。這種方法不僅可以避開提示的混淆因素,還可以讓我們評估LLMs的內在推理能力。此外,我們觀察到,在解碼路徑中存在CoT與模型解碼答案的信心之間存在較高的相關性。這種信心指標有效地區分了CoT和非CoT路徑。對各種推理基準的廣泛實證研究表明,所提出的CoT解碼明顯優於標準的貪婪解碼。