LLMs listos para usar como evaluadores de procesos: alternativa sin entrenamiento a los PRMs para el razonamiento matemático
Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
June 1, 2026
Autores: Atoosa Chegini, Soheil Feizi
cs.AI
Resumen
Seleccionar la mejor respuesta a partir de múltiples muestras de un modelo pequeño utilizando un evaluador más fuerte es una estrategia simple en tiempo de inferencia, pero falla cuando el modelo pequeño ya se ha comprometido con trayectorias de razonamiento incorrectas. La búsqueda guiada por PRM evita esto puntuando las continuaciones candidatas durante la generación, pero requiere un modelo de recompensa entrenado con etiquetas a nivel de paso.
Proponemos Generación Guiada a Nivel de Fragmento, una alternativa sin entrenamiento que utiliza un modelo de lenguaje grande ya disponible como evaluador de proceso. En cada paso, un modelo pequeño muestrea \(k\) fragmentos candidatos de longitud fija, mientras que el modelo grande puntúa los candidatos usando verosimilitudes sin generar texto. El fragmento seleccionado se fija antes del siguiente paso, guiando la generación antes de que los errores puedan propagarse.
Instanciamos este marco con dos reglas de selección: Selección Guiada por Verosimilitud (LGS), que elige el fragmento con mayor log-probabilidad de modelo grande normalizada por longitud, y Selección Guiada por Contraste (CGS), que resta la log-probabilidad del modelo pequeño para favorecer fragmentos donde la preferencia del modelo grande diverge de la del modelo pequeño. Mostramos que puntuar pasos de razonamiento de longitud variable con verosimilitudes de modelos grandes no es fiable debido a un sesgo sistemático de longitud que persiste incluso tras la normalización, y que los fragmentos de longitud fija evitan este factor de confusión.
En GSM8K, MATH, Minerva Math, AMC23 y AIME24 con Qwen2.5-1.5B guiado por Qwen2.5-32B y Llama-3.2-1B guiado por Llama-3.1-70B, CGS supera a la votación por mayoría en hasta 28 puntos porcentuales y, bajo presupuestos de guía igualados, iguala o supera a la búsqueda guiada por Qwen2.5-Math-PRM-72B en la mayoría de los benchmarks sin entrenamiento de modelo de recompensa. Con Qwen2.5-7B guiado por Qwen2.5-72B, CGS alcanza el 81.8% en MATH y el 63.6% en Minerva Math con \(k=16\), superando a la votación por mayoría en 4–6 puntos porcentuales. Finalmente, la Generación Guiada a Nivel de Fragmento produce trazas de razonamiento sustancialmente más cortas que la búsqueda guiada por PRM.
English
Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when the small model has already committed to incorrect reasoning paths. PRM guided search avoids this by scoring candidate continuations during generation, but requires a reward model trained with step-level labels.
We propose Chunk-Level Guided Generation, a training-free alternative that uses an off-the-shelf large language model as a process scorer. At each step, a small model samples k fixed-length candidate chunks, while the larger model scores the candidates using likelihoods without generating any text. The selected chunk is committed before the next step, steering generation before errors can propagate.
We instantiate this framework with two selection rules: Likelihood-Guided Selection (LGS), which selects the chunk with the highest length-normalized large-model log-probability, and Contrastive-Guided Selection (CGS), which subtracts the small model's log-probability to favor chunks where the large model's preference diverges from the small model's. We show that scoring variable-length reasoning steps with large-model likelihoods is unreliable due to a systematic length bias that persists even after length normalization, and that fixed-length chunks avoid this confound.
On GSM8K, MATH, Minerva Math, AMC23, and AIME24 with Qwen2.5-1.5B guided by Qwen2.5-32B and Llama-3.2-1B guided by Llama-3.1-70B, CGS outperforms majority voting by up to 28 pp and, under matched guidance budgets, matches or outperforms Qwen2.5-Math-PRM-72B guided search on most benchmarks without reward-model training. With Qwen2.5-7B guided by Qwen2.5-72B, CGS reaches 81.8% on MATH and 63.6% on Minerva Math at k=16, surpassing majority voting by 4--6 pp. Finally, Chunk-Level Guided Generation produces substantially shorter reasoning traces than PRM guided search.