Chain-of-Thought Reasoning ohne explizite Anleitung
Chain-of-Thought Reasoning Without Prompting
February 15, 2024
Autoren: Xuezhi Wang, Denny Zhou
cs.AI
Zusammenfassung
Bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Denken konzentriert sich die bisherige Forschung hauptsächlich auf spezifische Prompting-Techniken wie Few-Shot- oder Zero-Shot-Chain-of-Thought (CoT)-Prompting. Diese Methoden, obwohl effektiv, erfordern oft einen manuell aufwendigen Prompt-Engineering-Prozess. Unsere Studie geht einen neuartigen Ansatz, indem sie die Frage stellt: Können LLMs effektiv logisch denken, ohne spezifische Prompts zu verwenden? Unsere Ergebnisse zeigen, dass interessanterweise CoT-Denkpfade aus vortrainierten LLMs allein durch die Veränderung des Decodierungsprozesses hervorgebracht werden können. Anstelle des konventionellen Greedy-Decodings untersuchen wir die Top-k-Alternativ-Token und entdecken, dass CoT-Pfade häufig in diesen Sequenzen inhärent vorhanden sind. Dieser Ansatz umgeht nicht nur die Verzerrungen durch Prompting, sondern ermöglicht es uns auch, die intrinsischen Denkfähigkeiten der LLMs zu bewerten. Darüber hinaus beobachten wir, dass das Vorhandensein eines CoT im Decodierungspfad mit einer höheren Zuversicht in die vom Modell decodierte Antwort korreliert. Diese Zuversichtsmetrik unterscheidet effektiv zwischen CoT- und Nicht-CoT-Pfaden. Umfangreiche empirische Studien zu verschiedenen Denk-Benchmarks zeigen, dass das vorgeschlagene CoT-Decoding das Standard-Greedy-Decoding deutlich übertrifft.
English
In enhancing the reasoning capabilities of large language models (LLMs),
prior research primarily focuses on specific prompting techniques such as
few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while
effective, often involve manually intensive prompt engineering. Our study takes
a novel approach by asking: Can LLMs reason effectively without prompting? Our
findings reveal that, intriguingly, CoT reasoning paths can be elicited from
pre-trained LLMs by simply altering the decoding process. Rather than
conventional greedy decoding, we investigate the top-k alternative tokens,
uncovering that CoT paths are frequently inherent in these sequences. This
approach not only bypasses the confounders of prompting but also allows us to
assess the LLMs' intrinsic reasoning abilities. Moreover, we observe
that the presence of a CoT in the decoding path correlates with a higher
confidence in the model's decoded answer. This confidence metric effectively
differentiates between CoT and non-CoT paths. Extensive empirical studies on
various reasoning benchmarks show that the proposed CoT-decoding substantially
outperforms the standard greedy decoding.Summary
AI-Generated Summary