Modelos de Recompensa Permitem Verificação Escalável de Código ao Trocar Precisão por Taxa de Processamento
Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput
June 11, 2025
Autores: Gabriel Orlanski, Nicholas Roberts, Aws Albarghouthi, Frederic Sala
cs.AI
Resumo
O paradigma padrão para resolver tarefas de codificação por meio de modelos de linguagem de grande escala (LLMs) é gerar e, em seguida, classificar programas, onde a etapa de classificação utiliza um verificador no processo. O consenso crescente é que um verificador abrangente (por exemplo, um conjunto completo de testes) deve ser priorizado em relação a um modelo de recompensa de resultado (ORM) sempre que possível, com pouca consideração dada às compensações envolvidas. Nosso objetivo é desafiar essa suposição, explorando sistematicamente a compensação entre velocidade e precisão. Descobrimos que os ORMs desempenham um papel crucial na escalabilidade da verificação, trocando precisão por velocidade, mesmo quando um verificador abrangente está disponível. Seu valor torna-se especialmente evidente quando usado em uma abordagem de gerar-podar-e-depois-classificar, onde um verificador mais rápido, porém menos preciso, remove soluções incorretas antes da classificação — resultando em um sistema 11,65 vezes mais rápido, enquanto é apenas 8,33% menos preciso do que o conjunto completo de testes. Analisamos a abordagem de gerar-podar-e-depois-classificar e mostramos que ela funciona filtrando soluções incorretas, mas altamente classificadas. Essas descobertas permitem o design de sistemas de classificação de programas escaláveis e precisos.
English
The standard paradigm for solving coding tasks via large language models
(LLMs) is to generate-then-rank programs, where the latter step uses a verifier
in the ranking process. The growing consensus is that a comprehensive verifier
(e.g., a full test suite) should be prioritized over an outcome reward model
(ORM) whenever possible, with little consideration given to the trade-offs
involved. We aim to challenge this assumption by systematically exploring the
tradeoff between speed and accuracy. We find that ORMs play a crucial role in
scaling verification through trading accuracy for speed, even when a
comprehensive verifier is available. Their value becomes especially apparent
when used in a generate-prune-then-rank approach, where a faster but less
accurate verifier removes incorrect solutions prior to ranking -- leading to a
system that is 11.65x faster while only being 8.33% less accurate than the full
test suite. We analyze the generate-prune-then-rank approach and show that it
works by filtering out incorrect but highly ranked solutions. These findings
enable the design of scalable and accurate program ranking systems.