ChatPaper.aiChatPaper

Chain-of-Thought Redeneren Zonder Aanwijzingen

Chain-of-Thought Reasoning Without Prompting

February 15, 2024
Auteurs: Xuezhi Wang, Denny Zhou
cs.AI

Samenvatting

Bij het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs) richt eerder onderzoek zich voornamelijk op specifieke promptingtechnieken zoals few-shot of zero-shot chain-of-thought (CoT) prompting. Hoewel deze methoden effectief zijn, vereisen ze vaak intensieve handmatige promptengineering. Onze studie neemt een nieuwe benadering door de vraag te stellen: Kunnen LLMs effectief redeneren zonder prompting? Onze bevindingen onthullen dat, intrigerend genoeg, CoT-redeneerpaden kunnen worden opgeroepen uit vooraf getrainde LLMs door simpelweg het decodeerproces aan te passen. In plaats van conventionele greedy decoding, onderzoeken we de top-k alternatieve tokens, waarbij we ontdekken dat CoT-paden vaak inherent aanwezig zijn in deze sequenties. Deze aanpak omzeilt niet alleen de verstorende factoren van prompting, maar stelt ons ook in staat om de intrinsieke redeneervaardigheden van LLMs te beoordelen. Bovendien observeren we dat de aanwezigheid van een CoT in het decodeerpad correleert met een hoger vertrouwen in het gedecodeerde antwoord van het model. Deze betrouwbaarheidsmetriek onderscheidt effectief tussen CoT- en niet-CoT-paden. Uitgebreide empirische studies op diverse redeneerbenchmarks tonen aan dat de voorgestelde CoT-decoding aanzienlijk beter presteert dan standaard greedy decoding.
English
In enhancing the reasoning capabilities of large language models (LLMs), prior research primarily focuses on specific prompting techniques such as few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while effective, often involve manually intensive prompt engineering. Our study takes a novel approach by asking: Can LLMs reason effectively without prompting? Our findings reveal that, intriguingly, CoT reasoning paths can be elicited from pre-trained LLMs by simply altering the decoding process. Rather than conventional greedy decoding, we investigate the top-k alternative tokens, uncovering that CoT paths are frequently inherent in these sequences. This approach not only bypasses the confounders of prompting but also allows us to assess the LLMs' intrinsic reasoning abilities. Moreover, we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model's decoded answer. This confidence metric effectively differentiates between CoT and non-CoT paths. Extensive empirical studies on various reasoning benchmarks show that the proposed CoT-decoding substantially outperforms the standard greedy decoding.
PDF1095December 15, 2024