Modelos de Recompensa Permitem Verificação Escalável de Código ao Trocar Precisão por Taxa de Processamento

Resumo

O paradigma padrão para resolver tarefas de codificação por meio de modelos de linguagem de grande escala (LLMs) é gerar e, em seguida, classificar programas, onde a etapa de classificação utiliza um verificador no processo. O consenso crescente é que um verificador abrangente (por exemplo, um conjunto completo de testes) deve ser priorizado em relação a um modelo de recompensa de resultado (ORM) sempre que possível, com pouca consideração dada às compensações envolvidas. Nosso objetivo é desafiar essa suposição, explorando sistematicamente a compensação entre velocidade e precisão. Descobrimos que os ORMs desempenham um papel crucial na escalabilidade da verificação, trocando precisão por velocidade, mesmo quando um verificador abrangente está disponível. Seu valor torna-se especialmente evidente quando usado em uma abordagem de gerar-podar-e-depois-classificar, onde um verificador mais rápido, porém menos preciso, remove soluções incorretas antes da classificação — resultando em um sistema 11,65 vezes mais rápido, enquanto é apenas 8,33% menos preciso do que o conjunto completo de testes. Analisamos a abordagem de gerar-podar-e-depois-classificar e mostramos que ela funciona filtrando soluções incorretas, mas altamente classificadas. Essas descobertas permitem o design de sistemas de classificação de programas escaláveis e precisos.

English

The standard paradigm for solving coding tasks via large language models (LLMs) is to generate-then-rank programs, where the latter step uses a verifier in the ranking process. The growing consensus is that a comprehensive verifier (e.g., a full test suite) should be prioritized over an outcome reward model (ORM) whenever possible, with little consideration given to the trade-offs involved. We aim to challenge this assumption by systematically exploring the tradeoff between speed and accuracy. We find that ORMs play a crucial role in scaling verification through trading accuracy for speed, even when a comprehensive verifier is available. Their value becomes especially apparent when used in a generate-prune-then-rank approach, where a faster but less accurate verifier removes incorrect solutions prior to ranking -- leading to a system that is 11.65x faster while only being 8.33% less accurate than the full test suite. We analyze the generate-prune-then-rank approach and show that it works by filtering out incorrect but highly ranked solutions. These findings enable the design of scalable and accurate program ranking systems.

Modelos de Recompensa Permitem Verificação Escalável de Código ao Trocar Precisão por Taxa de Processamento

Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput

Resumo

Support