Beloningsmodellen maken schaalbare codeverificatie mogelijk door nauwkeurigheid in te ruilen voor doorvoersnelheid.
Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput
June 11, 2025
Auteurs: Gabriel Orlanski, Nicholas Roberts, Aws Albarghouthi, Frederic Sala
cs.AI
Samenvatting
Het standaardparadigma voor het oplossen van coderingsproblemen met behulp van grote taalmodellen (LLMs) is het genereren-en-rangschikken van programma's, waarbij de laatste stap een verificatiestap gebruikt in het rangschikkingsproces. De groeiende consensus is dat een uitgebreide verifier (bijvoorbeeld een volledige testsuite) prioriteit moet krijgen boven een uitkomstbeloningsmodel (ORM) wanneer mogelijk, met weinig aandacht voor de afwegingen die hierbij komen kijken. Wij willen deze aanname uitdagen door systematisch de afweging tussen snelheid en nauwkeurigheid te onderzoeken. Wij ontdekken dat ORM's een cruciale rol spelen bij het schalen van verificatie door nauwkeurigheid in te ruilen voor snelheid, zelfs wanneer een uitgebreide verifier beschikbaar is. Hun waarde wordt vooral duidelijk wanneer ze worden gebruikt in een genereer-snoei-en-rangschik-benadering, waarbij een snellere maar minder nauwkeurige verifier onjuiste oplossingen verwijdert vóór het rangschikken – wat resulteert in een systeem dat 11,65x sneller is terwijl het slechts 8,33% minder nauwkeurig is dan de volledige testsuite. Wij analyseren de genereer-snoei-en-rangschik-benadering en laten zien dat deze werkt door onjuiste maar hoog gerangschikte oplossingen eruit te filteren. Deze bevindingen maken het mogelijk om schaalbare en nauwkeurige programma-rangschikkingssystemen te ontwerpen.
English
The standard paradigm for solving coding tasks via large language models
(LLMs) is to generate-then-rank programs, where the latter step uses a verifier
in the ranking process. The growing consensus is that a comprehensive verifier
(e.g., a full test suite) should be prioritized over an outcome reward model
(ORM) whenever possible, with little consideration given to the trade-offs
involved. We aim to challenge this assumption by systematically exploring the
tradeoff between speed and accuracy. We find that ORMs play a crucial role in
scaling verification through trading accuracy for speed, even when a
comprehensive verifier is available. Their value becomes especially apparent
when used in a generate-prune-then-rank approach, where a faster but less
accurate verifier removes incorrect solutions prior to ranking -- leading to a
system that is 11.65x faster while only being 8.33% less accurate than the full
test suite. We analyze the generate-prune-then-rank approach and show that it
works by filtering out incorrect but highly ranked solutions. These findings
enable the design of scalable and accurate program ranking systems.