Standard-LLMs als Prozessbewerter: Trainingsfreie Alternative zu PRMs für mathematisches Reasoning

Zusammenfassung

Die Auswahl der besten Antwort aus mehreren Stichproben eines kleinen Modells mithilfe eines stärkeren Bewerters ist eine einfache Inferenzzeitstrategie, versagt jedoch, wenn das kleine Modell bereits falsche Schlussfolgerungspfade eingeschlagen hat. Die PRM-geführte Suche umgeht dies, indem sie während der Generierung mögliche Fortsetzungen bewertet, erfordert jedoch ein Belohnungsmodell, das mit schrittweisen Labels trainiert wurde. Wir schlagen die Chunk-Level-geführte Generierung vor, eine trainingsfreie Alternative, die ein handelsübliches großes Sprachmodell als Prozessbewerter verwendet. In jedem Schritt zieht ein kleines Modell k feste Kandidaten-Blöcke fester Länge, während das größere Modell die Kandidaten mittels Likelihoods bewertet, ohne selbst Text zu generieren. Der ausgewählte Block wird vor dem nächsten Schritt festgelegt, wodurch die Generierung gesteuert wird, bevor sich Fehler ausbreiten können. Wir setzen dieses Rahmenwerk mit zwei Auswahlregeln um: Likelihood-geführte Auswahl (LGS), die den Block mit der höchsten längennormalisierten Log-Wahrscheinlichkeit des großen Modells auswählt, und Kontrastiv-geführte Auswahl (CGS), die die Log-Wahrscheinlichkeit des kleinen Modells subtrahiert, um Blöcke zu bevorzugen, bei denen die Präferenz des großen Modells von der des kleinen Modells abweicht. Wir zeigen, dass die Bewertung variabler Denkschritte mit Likelihoods großer Modelle aufgrund eines systematischen Längenbias unzuverlässig ist, der selbst nach Längennormalisierung bestehen bleibt, und dass Blöcke fester Länge diese Verzerrung vermeiden. Auf GSM8K, MATH, Minerva Math, AMC23 und AIME24 mit Qwen2.5-1.5B, geführt von Qwen2.5-32B, sowie Llama-3.2-1B, geführt von Llama-3.1-70B, übertrifft CGS das Mehrheitsvotum um bis zu 28 Prozentpunkte und erreicht bei gleichen Führungsbudgets auf den meisten Benchmarks ohne Training eines Belohnungsmodells die Leistung der Qwen2.5-Math-PRM-72B-geführten Suche oder übertrifft sie. Mit Qwen2.5-7B, geführt von Qwen2.5-72B, erreicht CGS bei k=16 81,8% auf MATH und 63,6% auf Minerva Math, was einer Verbesserung von 4–6 Prozentpunkten gegenüber dem Mehrheitsvotum entspricht. Schließlich erzeugt die Chunk-Level-geführte Generierung deutlich kürzere Denkketten als die PRM-geführte Suche.

English

Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when the small model has already committed to incorrect reasoning paths. PRM guided search avoids this by scoring candidate continuations during generation, but requires a reward model trained with step-level labels. We propose Chunk-Level Guided Generation, a training-free alternative that uses an off-the-shelf large language model as a process scorer. At each step, a small model samples k fixed-length candidate chunks, while the larger model scores the candidates using likelihoods without generating any text. The selected chunk is committed before the next step, steering generation before errors can propagate. We instantiate this framework with two selection rules: Likelihood-Guided Selection (LGS), which selects the chunk with the highest length-normalized large-model log-probability, and Contrastive-Guided Selection (CGS), which subtracts the small model's log-probability to favor chunks where the large model's preference diverges from the small model's. We show that scoring variable-length reasoning steps with large-model likelihoods is unreliable due to a systematic length bias that persists even after length normalization, and that fixed-length chunks avoid this confound. On GSM8K, MATH, Minerva Math, AMC23, and AIME24 with Qwen2.5-1.5B guided by Qwen2.5-32B and Llama-3.2-1B guided by Llama-3.1-70B, CGS outperforms majority voting by up to 28 pp and, under matched guidance budgets, matches or outperforms Qwen2.5-Math-PRM-72B guided search on most benchmarks without reward-model training. With Qwen2.5-7B guided by Qwen2.5-72B, CGS reaches 81.8% on MATH and 63.6% on Minerva Math at k=16, surpassing majority voting by 4--6 pp. Finally, Chunk-Level Guided Generation produces substantially shorter reasoning traces than PRM guided search.