Quando Resolver, Quando Verificar: Resolução de Problemas com Computação Ótima e Verificação Generativa para Raciocínio em LLMs

Resumo

A escalonamento do cálculo em tempo de teste emergiu como uma estratégia fundamental para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs), especialmente em tarefas como a resolução de problemas matemáticos. Uma abordagem tradicional, a Autoconsistência (Self-Consistency, SC), gera múltiplas soluções para um problema e seleciona a resposta mais comum por meio de votação majoritária. Outro método comum envolve pontuar cada solução com um modelo de recompensa (verificador) e escolher a melhor. Avanços recentes em Modelos de Recompensa Generativos (Generative Reward Models, GenRM) reformulam a verificação como uma tarefa de previsão do próximo token, permitindo o escalonamento em tempo de inferência ao longo de um novo eixo. Especificamente, o GenRM gera múltiplas cadeias de raciocínio de verificação para pontuar cada solução. Sob um orçamento de inferência limitado, isso introduz uma troca fundamental: você deve gastar o orçamento escalonando soluções via SC ou gerar menos soluções e alocar cálculo para verificação via GenRM? Para abordar isso, avaliamos o GenRM em comparação com o SC sob um orçamento de inferência fixo. Curiosamente, descobrimos que o SC é mais eficiente em termos de cálculo do que o GenRM para a maioria dos orçamentos práticos de inferência em diversos modelos e conjuntos de dados. Por exemplo, o GenRM só iguala o SC após consumir até 8x o cálculo de inferência e requer significativamente mais cálculo para superá-lo. Além disso, derivamos leis de escalonamento de inferência para o paradigma GenRM, revelando que a inferência ótima em termos de cálculo favorece o escalonamento da geração de soluções de forma mais agressiva do que o escalonamento do número de verificações. Nosso trabalho fornece orientações práticas sobre como otimizar o escalonamento em tempo de teste equilibrando a geração de soluções e a verificação. O código está disponível em https://github.com/nishadsinghi/sc-genrm-scaling.

English

Scaling test-time compute has emerged as a key strategy for enhancing the reasoning capabilities of large language models (LLMs), particularly in tasks like mathematical problem-solving. A traditional approach, Self-Consistency (SC), generates multiple solutions to a problem and selects the most common answer via majority voting. Another common method involves scoring each solution with a reward model (verifier) and choosing the best one. Recent advancements in Generative Reward Models (GenRM) reframe verification as a next-token prediction task, enabling inference-time scaling along a new axis. Specifically, GenRM generates multiple verification chains-of-thought to score each solution. Under a limited inference budget, this introduces a fundamental trade-off: should you spend the budget on scaling solutions via SC or generate fewer solutions and allocate compute to verification via GenRM? To address this, we evaluate GenRM against SC under a fixed inference budget. Interestingly, we find that SC is more compute-efficient than GenRM for most practical inference budgets across diverse models and datasets. For instance, GenRM first matches SC after consuming up to 8x the inference compute and requires significantly more compute to outperform it. Furthermore, we derive inference scaling laws for the GenRM paradigm, revealing that compute-optimal inference favors scaling solution generation more aggressively than scaling the number of verifications. Our work provides practical guidance on optimizing test-time scaling by balancing solution generation and verification. The code is available at https://github.com/nishadsinghi/sc-genrm-scaling.

Quando Resolver, Quando Verificar: Resolução de Problemas com Computação Ótima e Verificação Generativa para Raciocínio em LLMs

When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Resumo

Support