Les modèles de récompense permettent une vérification de code évolutive en échangeant la précision contre le débit.
Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput
June 11, 2025
Auteurs: Gabriel Orlanski, Nicholas Roberts, Aws Albarghouthi, Frederic Sala
cs.AI
Résumé
Le paradigme standard pour résoudre des tâches de codage via des modèles de langage de grande taille (LLMs) consiste à générer puis classer des programmes, cette dernière étape utilisant un vérificateur dans le processus de classement. Le consensus grandissant est qu'un vérificateur complet (par exemple, une suite de tests exhaustive) devrait être privilégié par rapport à un modèle de récompense basé sur les résultats (ORM) chaque fois que possible, avec peu de considération pour les compromis impliqués. Nous cherchons à remettre en question cette hypothèse en explorant systématiquement le compromis entre vitesse et précision. Nous constatons que les ORMs jouent un rôle crucial dans la mise à l'échelle de la vérification en échangeant de la précision contre de la vitesse, même lorsqu'un vérificateur complet est disponible. Leur valeur devient particulièrement évidente lorsqu'ils sont utilisés dans une approche de génération-élagage-puis-classement, où un vérificateur plus rapide mais moins précis élimine les solutions incorrectes avant le classement — conduisant à un système 11,65 fois plus rapide tout en étant seulement 8,33 % moins précis que la suite de tests complète. Nous analysons l'approche de génération-élagage-puis-classement et montrons qu'elle fonctionne en filtrant les solutions incorrectes mais fortement classées. Ces résultats permettent la conception de systèmes de classement de programmes à la fois évolutifs et précis.
English
The standard paradigm for solving coding tasks via large language models
(LLMs) is to generate-then-rank programs, where the latter step uses a verifier
in the ranking process. The growing consensus is that a comprehensive verifier
(e.g., a full test suite) should be prioritized over an outcome reward model
(ORM) whenever possible, with little consideration given to the trade-offs
involved. We aim to challenge this assumption by systematically exploring the
tradeoff between speed and accuracy. We find that ORMs play a crucial role in
scaling verification through trading accuracy for speed, even when a
comprehensive verifier is available. Their value becomes especially apparent
when used in a generate-prune-then-rank approach, where a faster but less
accurate verifier removes incorrect solutions prior to ranking -- leading to a
system that is 11.65x faster while only being 8.33% less accurate than the full
test suite. We analyze the generate-prune-then-rank approach and show that it
works by filtering out incorrect but highly ranked solutions. These findings
enable the design of scalable and accurate program ranking systems.