Chain-of-Thought Reasoning ohne explizite Anleitung

papers.abstract

Bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Denken konzentriert sich die bisherige Forschung hauptsächlich auf spezifische Prompting-Techniken wie Few-Shot- oder Zero-Shot-Chain-of-Thought (CoT)-Prompting. Diese Methoden, obwohl effektiv, erfordern oft einen manuell aufwendigen Prompt-Engineering-Prozess. Unsere Studie geht einen neuartigen Ansatz, indem sie die Frage stellt: Können LLMs effektiv logisch denken, ohne spezifische Prompts zu verwenden? Unsere Ergebnisse zeigen, dass interessanterweise CoT-Denkpfade aus vortrainierten LLMs allein durch die Veränderung des Decodierungsprozesses hervorgebracht werden können. Anstelle des konventionellen Greedy-Decodings untersuchen wir die Top-k-Alternativ-Token und entdecken, dass CoT-Pfade häufig in diesen Sequenzen inhärent vorhanden sind. Dieser Ansatz umgeht nicht nur die Verzerrungen durch Prompting, sondern ermöglicht es uns auch, die intrinsischen Denkfähigkeiten der LLMs zu bewerten. Darüber hinaus beobachten wir, dass das Vorhandensein eines CoT im Decodierungspfad mit einer höheren Zuversicht in die vom Modell decodierte Antwort korreliert. Diese Zuversichtsmetrik unterscheidet effektiv zwischen CoT- und Nicht-CoT-Pfaden. Umfangreiche empirische Studien zu verschiedenen Denk-Benchmarks zeigen, dass das vorgeschlagene CoT-Decoding das Standard-Greedy-Decoding deutlich übertrifft.

English

In enhancing the reasoning capabilities of large language models (LLMs), prior research primarily focuses on specific prompting techniques such as few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while effective, often involve manually intensive prompt engineering. Our study takes a novel approach by asking: Can LLMs reason effectively without prompting? Our findings reveal that, intriguingly, CoT reasoning paths can be elicited from pre-trained LLMs by simply altering the decoding process. Rather than conventional greedy decoding, we investigate the top-k alternative tokens, uncovering that CoT paths are frequently inherent in these sequences. This approach not only bypasses the confounders of prompting but also allows us to assess the LLMs' intrinsic reasoning abilities. Moreover, we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model's decoded answer. This confidence metric effectively differentiates between CoT and non-CoT paths. Extensive empirical studies on various reasoning benchmarks show that the proposed CoT-decoding substantially outperforms the standard greedy decoding.

Chain-of-Thought Reasoning ohne explizite Anleitung

Chain-of-Thought Reasoning Without Prompting

papers.abstract

Support