Chain-of-Thought Redeneren Zonder Aanwijzingen
Chain-of-Thought Reasoning Without Prompting
February 15, 2024
Auteurs: Xuezhi Wang, Denny Zhou
cs.AI
Samenvatting
Bij het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs)
richt eerder onderzoek zich voornamelijk op specifieke promptingtechnieken zoals
few-shot of zero-shot chain-of-thought (CoT) prompting. Hoewel deze methoden
effectief zijn, vereisen ze vaak intensieve handmatige promptengineering. Onze studie
neemt een nieuwe benadering door de vraag te stellen: Kunnen LLMs effectief redeneren
zonder prompting? Onze bevindingen onthullen dat, intrigerend genoeg, CoT-redeneerpaden
kunnen worden opgeroepen uit vooraf getrainde LLMs door simpelweg het decodeerproces
aan te passen. In plaats van conventionele greedy decoding, onderzoeken we de top-k
alternatieve tokens, waarbij we ontdekken dat CoT-paden vaak inherent aanwezig zijn
in deze sequenties. Deze aanpak omzeilt niet alleen de verstorende factoren van prompting,
maar stelt ons ook in staat om de intrinsieke redeneervaardigheden van LLMs te beoordelen.
Bovendien observeren we dat de aanwezigheid van een CoT in het decodeerpad correleert
met een hoger vertrouwen in het gedecodeerde antwoord van het model. Deze
betrouwbaarheidsmetriek onderscheidt effectief tussen CoT- en niet-CoT-paden. Uitgebreide
empirische studies op diverse redeneerbenchmarks tonen aan dat de voorgestelde
CoT-decoding aanzienlijk beter presteert dan standaard greedy decoding.
English
In enhancing the reasoning capabilities of large language models (LLMs),
prior research primarily focuses on specific prompting techniques such as
few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while
effective, often involve manually intensive prompt engineering. Our study takes
a novel approach by asking: Can LLMs reason effectively without prompting? Our
findings reveal that, intriguingly, CoT reasoning paths can be elicited from
pre-trained LLMs by simply altering the decoding process. Rather than
conventional greedy decoding, we investigate the top-k alternative tokens,
uncovering that CoT paths are frequently inherent in these sequences. This
approach not only bypasses the confounders of prompting but also allows us to
assess the LLMs' intrinsic reasoning abilities. Moreover, we observe
that the presence of a CoT in the decoding path correlates with a higher
confidence in the model's decoded answer. This confidence metric effectively
differentiates between CoT and non-CoT paths. Extensive empirical studies on
various reasoning benchmarks show that the proposed CoT-decoding substantially
outperforms the standard greedy decoding.