LLMs prêts à l'emploi comme évaluateurs de processus : alternative sans entraînement aux PRMs pour le raisonnement mathématique

Résumé

Sélectionner la meilleure réponse parmi plusieurs échantillons d'un petit modèle en utilisant un scorer plus fort est une stratégie d'inférence simple, mais elle échoue lorsque le petit modèle s'est déjà engagé dans des chemins de raisonnement incorrects. La recherche guidée par PRM évite cela en scorant les continuations candidates pendant la génération, mais nécessite un modèle de récompense entraîné avec des annotations au niveau des étapes. Nous proposons la Génération Guidée par Niveau de Chunks, une alternative sans entraînement qui utilise un grand modèle de langage prêt à l'emploi comme scorer de processus. À chaque étape, un petit modèle échantillonne k chunks candidats de longueur fixe, tandis que le plus grand modèle score les candidats en utilisant des vraisemblances sans générer de texte. Le chunk sélectionné est validé avant l'étape suivante, orientant la génération avant que les erreurs ne puissent se propager. Nous instancions ce cadre avec deux règles de sélection : la Sélection Guidée par Vraisemblance (LGS), qui sélectionne le chunk avec la log-probabilité normalisée par la longueur la plus élevée du grand modèle, et la Sélection Guidée par Contraste (CGS), qui soustrait la log-probabilité du petit modèle pour favoriser les chunks où la préférence du grand modèle diverge de celle du petit modèle. Nous montrons que scorer des étapes de raisonnement de longueur variable avec des vraisemblances du grand modèle n'est pas fiable en raison d'un biais systématique de longueur qui persiste même après normalisation par la longueur, et que des chunks de longueur fixe évitent ce facteur de confusion. Sur GSM8K, MATH, Minerva Math, AMC23 et AIME24 avec Qwen2.5-1.5B guidé par Qwen2.5-32B et Llama-3.2-1B guidé par Llama-3.1-70B, CGS surpasse le vote majoritaire jusqu'à 28 pp et, sous des budgets de guidage appariés, atteint ou dépasse la recherche guidée par Qwen2.5-Math-PRM-72B sur la plupart des benchmarks sans entraînement de modèle de récompense. Avec Qwen2.5-7B guidé par Qwen2.5-72B, CGS atteint 81,8% sur MATH et 63,6% sur Minerva Math à k=16, surpassant le vote majoritaire de 4 à 6 pp. Enfin, la Génération Guidée par Niveau de Chunks produit des traces de raisonnement sensiblement plus courtes que la recherche guidée par PRM.

English

Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when the small model has already committed to incorrect reasoning paths. PRM guided search avoids this by scoring candidate continuations during generation, but requires a reward model trained with step-level labels. We propose Chunk-Level Guided Generation, a training-free alternative that uses an off-the-shelf large language model as a process scorer. At each step, a small model samples k fixed-length candidate chunks, while the larger model scores the candidates using likelihoods without generating any text. The selected chunk is committed before the next step, steering generation before errors can propagate. We instantiate this framework with two selection rules: Likelihood-Guided Selection (LGS), which selects the chunk with the highest length-normalized large-model log-probability, and Contrastive-Guided Selection (CGS), which subtracts the small model's log-probability to favor chunks where the large model's preference diverges from the small model's. We show that scoring variable-length reasoning steps with large-model likelihoods is unreliable due to a systematic length bias that persists even after length normalization, and that fixed-length chunks avoid this confound. On GSM8K, MATH, Minerva Math, AMC23, and AIME24 with Qwen2.5-1.5B guided by Qwen2.5-32B and Llama-3.2-1B guided by Llama-3.1-70B, CGS outperforms majority voting by up to 28 pp and, under matched guidance budgets, matches or outperforms Qwen2.5-Math-PRM-72B guided search on most benchmarks without reward-model training. With Qwen2.5-7B guided by Qwen2.5-72B, CGS reaches 81.8% on MATH and 63.6% on Minerva Math at k=16, surpassing majority voting by 4--6 pp. Finally, Chunk-Level Guided Generation produces substantially shorter reasoning traces than PRM guided search.