ChatPaper.aiChatPaper

Zuverlässige Chain-of-Thought durch Präfixkonsistenz

Reliable Chain-of-Thought via Prefix Consistency

May 8, 2026
Autoren: Naoto Iwase, Yuki Ichihara, Mohammad Atif Quamar, Junpei Komiyama
cs.AI

Zusammenfassung

Große Sprachmodelle verbessern oft die Genauigkeit bei Denkaufgaben, indem sie mehrere Chain-of-Thought (CoT)-Pfade sampeln und mittels Mehrheitsabstimmung (MV) aggregieren – eine Testzeit-Technik namens Selbstkonsistenz. Wenn wir einen CoT-Pfad vorzeitig abbrechen und den Rest neu generieren, beobachten wir, dass Pfade mit korrekten Antworten ihre ursprüngliche Antwort häufiger reproduzieren als Pfade mit falschen Antworten. Wir nutzen diesen Unterschied als Zuverlässigkeitssignal, die Präfixkonsistenz, die jede Kandidatenantwort danach gewichtet, wie oft sie bei einer Neugenerierung wieder auftaucht. Sie benötigt keinen Zugriff auf Token-Log-Wahrscheinlichkeiten oder Selbsteinschätzungs-Prompts. Über fünf Denkmodelle und vier Mathematik- und Wissenschafts-Benchmarks hinweg ist die Präfixkonsistenz in den meisten Einstellungen der beste Korrektheitsprädiktor, und eine Neugewichtung der Stimmen durch sie erreicht die Standard-MV-Plattformgenauigkeit bei bis zu 21× weniger Token (Median 4,6×). Unser Code ist verfügbar unter https://github.com/naoto-iwase/prefix-consistency.
English
Large Language Models often improve accuracy on reasoning tasks by sampling multiple Chain-of-Thought (CoT) traces and aggregating them with majority voting (MV), a test-time technique called self-consistency. When we truncate a CoT partway through and regenerate the remainder, we observe that traces with correct answers reproduce their original answer more often than traces with wrong answers. We use this difference as a reliability signal, prefix consistency, that weights each candidate answer by how often it reappears under regeneration. It requires no access to token log-probabilities or self-rating prompts. Across five reasoning models and four math and science benchmarks, prefix consistency is the best correctness predictor in most settings, and reweighting votes by it reaches Standard MV plateau accuracy at up to 21x fewer tokens (median 4.6x). Our code is available at https://github.com/naoto-iwase/prefix-consistency.
PDF13May 14, 2026