Chain-of-Thought Reasoning ohne explizite AnleitungChain-of-Thought Reasoning Without Prompting
Bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Denken konzentriert sich die bisherige Forschung hauptsächlich auf spezifische Prompting-Techniken wie Few-Shot- oder Zero-Shot-Chain-of-Thought (CoT)-Prompting. Diese Methoden, obwohl effektiv, erfordern oft einen manuell aufwendigen Prompt-Engineering-Prozess. Unsere Studie geht einen neuartigen Ansatz, indem sie die Frage stellt: Können LLMs effektiv logisch denken, ohne spezifische Prompts zu verwenden? Unsere Ergebnisse zeigen, dass interessanterweise CoT-Denkpfade aus vortrainierten LLMs allein durch die Veränderung des Decodierungsprozesses hervorgebracht werden können. Anstelle des konventionellen Greedy-Decodings untersuchen wir die Top-k-Alternativ-Token und entdecken, dass CoT-Pfade häufig in diesen Sequenzen inhärent vorhanden sind. Dieser Ansatz umgeht nicht nur die Verzerrungen durch Prompting, sondern ermöglicht es uns auch, die intrinsischen Denkfähigkeiten der LLMs zu bewerten. Darüber hinaus beobachten wir, dass das Vorhandensein eines CoT im Decodierungspfad mit einer höheren Zuversicht in die vom Modell decodierte Antwort korreliert. Diese Zuversichtsmetrik unterscheidet effektiv zwischen CoT- und Nicht-CoT-Pfaden. Umfangreiche empirische Studien zu verschiedenen Denk-Benchmarks zeigen, dass das vorgeschlagene CoT-Decoding das Standard-Greedy-Decoding deutlich übertrifft.