Готовые LLM как оценщики процесса: альтернатива без обучения PRM для математического рассуждения

Аннотация

Выбор наилучшего ответа из множества выборок малой модели с помощью более сильного оценщика — это простая стратегия времени вывода, но она не работает, когда малая модель уже выбрала неверные пути рассуждений. Поиск с направляющей PRM позволяет избежать этого, оценивая продолжения-кандидаты в процессе генерации, но требует модели вознаграждения, обученной на пошаговых метках. Мы предлагаем направленное порождение на уровне фрагментов — альтернативу без обучения, которая использует готовую большую языковую модель в качестве оценщика процесса. На каждом шаге малая модель выбирает k фрагментов-кандидатов фиксированной длины, а большая модель оценивает кандидаты с помощью правдоподобий, не генерируя никакого текста. Выбранный фрагмент фиксируется перед следующим шагом, направляя генерацию до того, как ошибки успеют распространиться. Мы реализуем эту структуру с двумя правилами отбора: отбор на основе правдоподобия (LGS), который выбирает фрагмент с наибольшей нормированной по длине логарифмической вероятностью большой модели, и контрастивный отбор (CGS), который вычитает логарифмическую вероятность малой модели, чтобы отдать предпочтение фрагментам, где предпочтения большой модели расходятся с предпочтениями малой модели. Мы показываем, что оценка шагов рассуждений переменной длины с помощью правдоподобий большой модели ненадёжна из-за систематического смещения по длине, сохраняющегося даже после нормировки по длине, и что фрагменты фиксированной длины позволяют избежать этого искажения. На наборах GSM8K, MATH, Minerva Math, AMC23 и AIME24 с Qwen2.5-1.5B при направлении от Qwen2.5-32B и Llama-3.2-1B при направлении от Llama-3.1-70B CGS превосходит мажоритарное голосование на величину до 28 п.п. и при сопоставимых бюджетах на направление достигает или превосходит результаты поиска с направляющей Qwen2.5-Math-PRM-72B на большинстве бенчмарков без обучения модели вознаграждения. При Qwen2.5-7B с направлением от Qwen2.5-72B CGS достигает 81,8% на MATH и 63,6% на Minerva Math при k=16, превосходя мажоритарное голосование на 4–6 п.п. Наконец, направленное порождение на уровне фрагментов даёт существенно более короткие цепочки рассуждений, чем поиск с направляющей PRM.

English

Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when the small model has already committed to incorrect reasoning paths. PRM guided search avoids this by scoring candidate continuations during generation, but requires a reward model trained with step-level labels. We propose Chunk-Level Guided Generation, a training-free alternative that uses an off-the-shelf large language model as a process scorer. At each step, a small model samples k fixed-length candidate chunks, while the larger model scores the candidates using likelihoods without generating any text. The selected chunk is committed before the next step, steering generation before errors can propagate. We instantiate this framework with two selection rules: Likelihood-Guided Selection (LGS), which selects the chunk with the highest length-normalized large-model log-probability, and Contrastive-Guided Selection (CGS), which subtracts the small model's log-probability to favor chunks where the large model's preference diverges from the small model's. We show that scoring variable-length reasoning steps with large-model likelihoods is unreliable due to a systematic length bias that persists even after length normalization, and that fixed-length chunks avoid this confound. On GSM8K, MATH, Minerva Math, AMC23, and AIME24 with Qwen2.5-1.5B guided by Qwen2.5-32B and Llama-3.2-1B guided by Llama-3.1-70B, CGS outperforms majority voting by up to 28 pp and, under matched guidance budgets, matches or outperforms Qwen2.5-Math-PRM-72B guided search on most benchmarks without reward-model training. With Qwen2.5-7B guided by Qwen2.5-72B, CGS reaches 81.8% on MATH and 63.6% on Minerva Math at k=16, surpassing majority voting by 4--6 pp. Finally, Chunk-Level Guided Generation produces substantially shorter reasoning traces than PRM guided search.