LLMs Prontos para Uso como Avaliadores de Processo: Alternativa sem Treinamento aos PRMs para Raciocínio Matemático

Resumo

Selecionar a melhor resposta a partir de múltiplas amostras de um modelo pequeno usando um avaliador mais forte é uma estratégia simples em tempo de inferência, mas falha quando o modelo pequeno já se comprometeu com caminhos de raciocínio incorretos. A busca guiada por PRM evita isso ao pontuar continuações candidatas durante a geração, mas requer um modelo de recompensa treinado com rótulos no nível de etapa. Propomos a Geração Guiada por Nível de Bloco, uma alternativa sem treinamento que utiliza um modelo de linguagem grande disponível como avaliador de processo. A cada passo, um modelo pequeno amostra k blocos candidatos de comprimento fixo, enquanto o modelo maior pontua os candidatos usando verossimilhanças sem gerar nenhum texto. O bloco selecionado é comprometido antes do próximo passo, direcionando a geração antes que erros possam se propagar. Instanciamos este arcabouço com duas regras de seleção: Seleção Guiada por Verossimilhança (SGV), que seleciona o bloco com a maior log-probabilidade normalizada por comprimento do modelo grande, e Seleção Guiada por Contraste (SGC), que subtrai a log-probabilidade do modelo pequeno para favorecer blocos onde a preferência do modelo grande diverge da do modelo pequeno. Mostramos que pontuar passos de raciocínio de comprimento variável com verossimilhanças de modelos grandes é não confiável devido a um viés sistemático de comprimento que persiste mesmo após a normalização por comprimento, e que blocos de comprimento fixo evitam essa confusão. Em GSM8K, MATH, Minerva Math, AMC23 e AIME24 com Qwen2.5-1.5B guiado por Qwen2.5-32B e Llama-3.2-1B guiado por Llama-3.1-70B, a SGC supera a votação majoritária em até 28 pp e, sob orçamentos de orientação equivalentes, iguala ou supera a busca guiada por Qwen2.5-Math-PRM-72B na maioria dos benchmarks sem treinamento de modelo de recompensa. Com Qwen2.5-7B guiado por Qwen2.5-72B, a SGC atinge 81,8% no MATH e 63,6% no Minerva Math com k=16, superando a votação majoritária em 4–6 pp. Finalmente, a Geração Guiada por Nível de Bloco produz traços de raciocínio substancialmente mais curtos do que a busca guiada por PRM.

English

Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when the small model has already committed to incorrect reasoning paths. PRM guided search avoids this by scoring candidate continuations during generation, but requires a reward model trained with step-level labels. We propose Chunk-Level Guided Generation, a training-free alternative that uses an off-the-shelf large language model as a process scorer. At each step, a small model samples k fixed-length candidate chunks, while the larger model scores the candidates using likelihoods without generating any text. The selected chunk is committed before the next step, steering generation before errors can propagate. We instantiate this framework with two selection rules: Likelihood-Guided Selection (LGS), which selects the chunk with the highest length-normalized large-model log-probability, and Contrastive-Guided Selection (CGS), which subtracts the small model's log-probability to favor chunks where the large model's preference diverges from the small model's. We show that scoring variable-length reasoning steps with large-model likelihoods is unreliable due to a systematic length bias that persists even after length normalization, and that fixed-length chunks avoid this confound. On GSM8K, MATH, Minerva Math, AMC23, and AIME24 with Qwen2.5-1.5B guided by Qwen2.5-32B and Llama-3.2-1B guided by Llama-3.1-70B, CGS outperforms majority voting by up to 28 pp and, under matched guidance budgets, matches or outperforms Qwen2.5-Math-PRM-72B guided search on most benchmarks without reward-model training. With Qwen2.5-7B guided by Qwen2.5-72B, CGS reaches 81.8% on MATH and 63.6% on Minerva Math at k=16, surpassing majority voting by 4--6 pp. Finally, Chunk-Level Guided Generation produces substantially shorter reasoning traces than PRM guided search.