Kant-en-klare LLMs als procesbeoordelaars: trainingsvrij alternatief voor PRMs voor wiskundig redeneren

Samenvatting

Het selecteren van de beste respons uit meerdere samples van een klein model met behulp van een sterke scorer is een eenvoudige inferentiestrategie, maar faalt wanneer het kleine model al op foutieve redeneerpaden is beland. PRM-gestuurd zoeken vermijdt dit door kandidaat-voortzettingen tijdens de generatie te beoordelen, maar vereist een beloningsmodel dat is getraind met stapsgewijze labels. Wij stellen Chunk-Level Guided Generation voor, een trainingvrij alternatief dat een bestaand groot taalmodel als processcorer gebruikt. Bij elke stap samplet een klein model k vaste-lengte chunks, terwijl het grotere model de kandidaten scoort met behulp van waarschijnlijkheden zonder enige tekst te genereren. De geselecteerde chunk wordt vóór de volgende stap vastgelegd, waardoor de generatie wordt gestuurd voordat fouten zich kunnen verspreiden. We implementeren dit raamwerk met twee selectieregels: Likelihood-Guided Selection (LGS), die de chunk met de hoogste lengte-genormaliseerde log-waarschijnlijkheid van het grote model selecteert, en Contrastive-Guided Selection (CGS), die de log-waarschijnlijkheid van het kleine model aftrekt om chunks te begunstigen waar de voorkeur van het grote model afwijkt van die van het kleine model. We tonen aan dat het scoren van variabele-lengte redeneerstappen met grote-modelwaarschijnlijkheden onbetrouwbaar is vanwege een systematisch lengtevooroordeel dat aanhoudt, zelfs na lengtenormalisatie, en dat vaste-lengte chunks deze verstorende factor vermijden. Op GSM8K, MATH, Minerva Math, AMC23 en AIME24 met Qwen2.5-1.5B gestuurd door Qwen2.5-32B en Llama-3.2-1B gestuurd door Llama-3.1-70B, overtreft CGS meerderheidsstemming met tot 28 procentpunten en, onder gelijke sturingsbudgetten, evenaart of overtreft het Qwen2.5-Math-PRM-72B-gestuurd zoeken op de meeste benchmarks zonder beloningsmodeltraining. Met Qwen2.5-7B gestuurd door Qwen2.5-72B bereikt CGS 81,8% op MATH en 63,6% op Minerva Math bij k=16, waarmee het meerderheidsstemming met 4–6 procentpunten overtreft. Tot slot produceert Chunk-Level Guided Generation aanzienlijk kortere redeneertrajecten dan PRM-gestuurd zoeken.

English

Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when the small model has already committed to incorrect reasoning paths. PRM guided search avoids this by scoring candidate continuations during generation, but requires a reward model trained with step-level labels. We propose Chunk-Level Guided Generation, a training-free alternative that uses an off-the-shelf large language model as a process scorer. At each step, a small model samples k fixed-length candidate chunks, while the larger model scores the candidates using likelihoods without generating any text. The selected chunk is committed before the next step, steering generation before errors can propagate. We instantiate this framework with two selection rules: Likelihood-Guided Selection (LGS), which selects the chunk with the highest length-normalized large-model log-probability, and Contrastive-Guided Selection (CGS), which subtracts the small model's log-probability to favor chunks where the large model's preference diverges from the small model's. We show that scoring variable-length reasoning steps with large-model likelihoods is unreliable due to a systematic length bias that persists even after length normalization, and that fixed-length chunks avoid this confound. On GSM8K, MATH, Minerva Math, AMC23, and AIME24 with Qwen2.5-1.5B guided by Qwen2.5-32B and Llama-3.2-1B guided by Llama-3.1-70B, CGS outperforms majority voting by up to 28 pp and, under matched guidance budgets, matches or outperforms Qwen2.5-Math-PRM-72B guided search on most benchmarks without reward-model training. With Qwen2.5-7B guided by Qwen2.5-72B, CGS reaches 81.8% on MATH and 63.6% on Minerva Math at k=16, surpassing majority voting by 4--6 pp. Finally, Chunk-Level Guided Generation produces substantially shorter reasoning traces than PRM guided search.