Belohnungsmodelle ermöglichen skalierbare Code-Verifizierung durch den Austausch von Genauigkeit gegen Durchsatz.
Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput
June 11, 2025
Autoren: Gabriel Orlanski, Nicholas Roberts, Aws Albarghouthi, Frederic Sala
cs.AI
Zusammenfassung
Das Standardparadigma zur Lösung von Programmieraufgaben mithilfe großer Sprachmodelle (LLMs) besteht darin, Programme zu generieren und anschließend zu bewerten, wobei der letzte Schritt einen Verifizierer im Bewertungsprozess verwendet. Die zunehmende Übereinstimmung ist, dass ein umfassender Verifizierer (z. B. ein vollständiger Testsuite) gegenüber einem Ergebnis-Belohnungsmodell (Outcome Reward Model, ORM) priorisiert werden sollte, wobei die damit verbundenen Kompromisse kaum berücksichtigt werden. Wir zielen darauf ab, diese Annahme zu hinterfragen, indem wir den Kompromiss zwischen Geschwindigkeit und Genauigkeit systematisch untersuchen. Wir stellen fest, dass ORMs eine entscheidende Rolle bei der Skalierung der Verifizierung spielen, indem sie Genauigkeit gegen Geschwindigkeit eintauschen, selbst wenn ein umfassender Verifizierer verfügbar ist. Ihr Wert wird besonders deutlich, wenn sie in einem Generieren-Beschneiden-Bewerten-Ansatz verwendet werden, bei dem ein schnellerer, aber weniger genauer Verifizierer falsche Lösungen vor der Bewertung aussortiert – was zu einem System führt, das 11,65-mal schneller ist, während es nur 8,33 % weniger genau ist als die vollständige Testsuite. Wir analysieren den Generieren-Beschneiden-Bewerten-Ansatz und zeigen, dass er funktioniert, indem er falsche, aber hoch bewertete Lösungen herausfiltert. Diese Erkenntnisse ermöglichen die Gestaltung skalierbarer und präziser Systeme zur Programmrangfolge.
English
The standard paradigm for solving coding tasks via large language models
(LLMs) is to generate-then-rank programs, where the latter step uses a verifier
in the ranking process. The growing consensus is that a comprehensive verifier
(e.g., a full test suite) should be prioritized over an outcome reward model
(ORM) whenever possible, with little consideration given to the trade-offs
involved. We aim to challenge this assumption by systematically exploring the
tradeoff between speed and accuracy. We find that ORMs play a crucial role in
scaling verification through trading accuracy for speed, even when a
comprehensive verifier is available. Their value becomes especially apparent
when used in a generate-prune-then-rank approach, where a faster but less
accurate verifier removes incorrect solutions prior to ranking -- leading to a
system that is 11.65x faster while only being 8.33% less accurate than the full
test suite. We analyze the generate-prune-then-rank approach and show that it
works by filtering out incorrect but highly ranked solutions. These findings
enable the design of scalable and accurate program ranking systems.