Quando Resolver, Quando Verificar: Resolução de Problemas com Computação Ótima e Verificação Generativa para Raciocínio em LLMs
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning
April 1, 2025
Autores: Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach
cs.AI
Resumo
A escalonamento do cálculo em tempo de teste emergiu como uma estratégia fundamental para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs), especialmente em tarefas como a resolução de problemas matemáticos. Uma abordagem tradicional, a Autoconsistência (Self-Consistency, SC), gera múltiplas soluções para um problema e seleciona a resposta mais comum por meio de votação majoritária. Outro método comum envolve pontuar cada solução com um modelo de recompensa (verificador) e escolher a melhor. Avanços recentes em Modelos de Recompensa Generativos (Generative Reward Models, GenRM) reformulam a verificação como uma tarefa de previsão do próximo token, permitindo o escalonamento em tempo de inferência ao longo de um novo eixo. Especificamente, o GenRM gera múltiplas cadeias de raciocínio de verificação para pontuar cada solução. Sob um orçamento de inferência limitado, isso introduz uma troca fundamental: você deve gastar o orçamento escalonando soluções via SC ou gerar menos soluções e alocar cálculo para verificação via GenRM? Para abordar isso, avaliamos o GenRM em comparação com o SC sob um orçamento de inferência fixo. Curiosamente, descobrimos que o SC é mais eficiente em termos de cálculo do que o GenRM para a maioria dos orçamentos práticos de inferência em diversos modelos e conjuntos de dados. Por exemplo, o GenRM só iguala o SC após consumir até 8x o cálculo de inferência e requer significativamente mais cálculo para superá-lo. Além disso, derivamos leis de escalonamento de inferência para o paradigma GenRM, revelando que a inferência ótima em termos de cálculo favorece o escalonamento da geração de soluções de forma mais agressiva do que o escalonamento do número de verificações. Nosso trabalho fornece orientações práticas sobre como otimizar o escalonamento em tempo de teste equilibrando a geração de soluções e a verificação. O código está disponível em https://github.com/nishadsinghi/sc-genrm-scaling.
English
Scaling test-time compute has emerged as a key strategy for enhancing the
reasoning capabilities of large language models (LLMs), particularly in tasks
like mathematical problem-solving. A traditional approach, Self-Consistency
(SC), generates multiple solutions to a problem and selects the most common
answer via majority voting. Another common method involves scoring each
solution with a reward model (verifier) and choosing the best one. Recent
advancements in Generative Reward Models (GenRM) reframe verification as a
next-token prediction task, enabling inference-time scaling along a new axis.
Specifically, GenRM generates multiple verification chains-of-thought to score
each solution. Under a limited inference budget, this introduces a fundamental
trade-off: should you spend the budget on scaling solutions via SC or generate
fewer solutions and allocate compute to verification via GenRM? To address
this, we evaluate GenRM against SC under a fixed inference budget.
Interestingly, we find that SC is more compute-efficient than GenRM for most
practical inference budgets across diverse models and datasets. For instance,
GenRM first matches SC after consuming up to 8x the inference compute and
requires significantly more compute to outperform it. Furthermore, we derive
inference scaling laws for the GenRM paradigm, revealing that compute-optimal
inference favors scaling solution generation more aggressively than scaling the
number of verifications. Our work provides practical guidance on optimizing
test-time scaling by balancing solution generation and verification. The code
is available at https://github.com/nishadsinghi/sc-genrm-scaling.Summary
AI-Generated Summary