ChatPaper.aiChatPaper

Надежная цепочка рассуждений через согласованность префиксов

Reliable Chain-of-Thought via Prefix Consistency

May 8, 2026
Авторы: Naoto Iwase, Yuki Ichihara, Mohammad Atif Quamar, Junpei Komiyama
cs.AI

Аннотация

Большие языковые модели часто повышают точность в задачах рассуждения, формируя выборку из нескольких трасс «цепочки мыслей» (CoT) и агрегируя их мажоритарным голосованием (МГ) — методом тестового времени, называемым самосогласованностью. Когда мы обрываем CoT на полпути и генерируем оставшуюся часть заново, мы наблюдаем, что трассы с правильными ответами воспроизводят свой исходный ответ чаще, чем трассы с неверными ответами. Мы используем это различие как сигнал надёжности — согласованность префикса, который взвешивает каждый кандидатский ответ по тому, как часто он воспроизводится при регенерации. Он не требует доступа к логарифмическим вероятностям токенов или подсказкам для самооценки. На пяти моделях рассуждений и четырёх эталонных тестах по математике и естественным наукам согласованность префикса в большинстве настроек оказывается лучшим предиктором корректности, а перевзвешивание голосов с её помощью достигает точности плато стандартного МГ при использовании до 21 раза меньшего числа токенов (медиана 4.6). Наш код доступен по адресу https://github.com/naoto-iwase/prefix-consistency.
English
Large Language Models often improve accuracy on reasoning tasks by sampling multiple Chain-of-Thought (CoT) traces and aggregating them with majority voting (MV), a test-time technique called self-consistency. When we truncate a CoT partway through and regenerate the remainder, we observe that traces with correct answers reproduce their original answer more often than traces with wrong answers. We use this difference as a reliability signal, prefix consistency, that weights each candidate answer by how often it reappears under regeneration. It requires no access to token log-probabilities or self-rating prompts. Across five reasoning models and four math and science benchmarks, prefix consistency is the best correctness predictor in most settings, and reweighting votes by it reaches Standard MV plateau accuracy at up to 21x fewer tokens (median 4.6x). Our code is available at https://github.com/naoto-iwase/prefix-consistency.
PDF13May 14, 2026