Les modèles de récompense permettent une vérification de code évolutive en échangeant la précision contre le débit.

papers.abstract

Le paradigme standard pour résoudre des tâches de codage via des modèles de langage de grande taille (LLMs) consiste à générer puis classer des programmes, cette dernière étape utilisant un vérificateur dans le processus de classement. Le consensus grandissant est qu'un vérificateur complet (par exemple, une suite de tests exhaustive) devrait être privilégié par rapport à un modèle de récompense basé sur les résultats (ORM) chaque fois que possible, avec peu de considération pour les compromis impliqués. Nous cherchons à remettre en question cette hypothèse en explorant systématiquement le compromis entre vitesse et précision. Nous constatons que les ORMs jouent un rôle crucial dans la mise à l'échelle de la vérification en échangeant de la précision contre de la vitesse, même lorsqu'un vérificateur complet est disponible. Leur valeur devient particulièrement évidente lorsqu'ils sont utilisés dans une approche de génération-élagage-puis-classement, où un vérificateur plus rapide mais moins précis élimine les solutions incorrectes avant le classement — conduisant à un système 11,65 fois plus rapide tout en étant seulement 8,33 % moins précis que la suite de tests complète. Nous analysons l'approche de génération-élagage-puis-classement et montrons qu'elle fonctionne en filtrant les solutions incorrectes mais fortement classées. Ces résultats permettent la conception de systèmes de classement de programmes à la fois évolutifs et précis.

English

The standard paradigm for solving coding tasks via large language models (LLMs) is to generate-then-rank programs, where the latter step uses a verifier in the ranking process. The growing consensus is that a comprehensive verifier (e.g., a full test suite) should be prioritized over an outcome reward model (ORM) whenever possible, with little consideration given to the trade-offs involved. We aim to challenge this assumption by systematically exploring the tradeoff between speed and accuracy. We find that ORMs play a crucial role in scaling verification through trading accuracy for speed, even when a comprehensive verifier is available. Their value becomes especially apparent when used in a generate-prune-then-rank approach, where a faster but less accurate verifier removes incorrect solutions prior to ranking -- leading to a system that is 11.65x faster while only being 8.33% less accurate than the full test suite. We analyze the generate-prune-then-rank approach and show that it works by filtering out incorrect but highly ranked solutions. These findings enable the design of scalable and accurate program ranking systems.

Les modèles de récompense permettent une vérification de code évolutive en échangeant la précision contre le débit.

Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput

papers.abstract

Support