ChatPaper.aiChatPaper

I modelli di ricompensa abilitano la verifica scalabile del codice scambiando precisione per velocità di elaborazione.

Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput

June 11, 2025
Autori: Gabriel Orlanski, Nicholas Roberts, Aws Albarghouthi, Frederic Sala
cs.AI

Abstract

Il paradigma standard per risolvere compiti di codifica tramite modelli linguistici di grandi dimensioni (LLM) consiste nel generare e poi classificare i programmi, dove quest'ultimo passaggio utilizza un verificatore nel processo di classificazione. Il crescente consenso è che un verificatore completo (ad esempio, una suite di test completa) dovrebbe essere preferito rispetto a un modello di ricompensa basato sui risultati (ORM) ove possibile, con poca considerazione per i compromessi coinvolti. Il nostro obiettivo è mettere in discussione questa ipotesi esplorando sistematicamente il compromesso tra velocità e accuratezza. Scopriamo che gli ORM svolgono un ruolo cruciale nel ridimensionare la verifica scambiando accuratezza per velocità, anche quando è disponibile un verificatore completo. Il loro valore diventa particolarmente evidente quando utilizzati in un approccio di generazione-pulizia-classificazione, in cui un verificatore più veloce ma meno accurato rimuove le soluzioni errate prima della classificazione, portando a un sistema che è 11,65 volte più veloce pur essendo solo l'8,33% meno accurato rispetto alla suite di test completa. Analizziamo l'approccio di generazione-pulizia-classificazione e dimostriamo che funziona filtrando le soluzioni errate ma altamente classificate. Questi risultati consentono la progettazione di sistemi di classificazione dei programmi scalabili e accurati.
English
The standard paradigm for solving coding tasks via large language models (LLMs) is to generate-then-rank programs, where the latter step uses a verifier in the ranking process. The growing consensus is that a comprehensive verifier (e.g., a full test suite) should be prioritized over an outcome reward model (ORM) whenever possible, with little consideration given to the trade-offs involved. We aim to challenge this assumption by systematically exploring the tradeoff between speed and accuracy. We find that ORMs play a crucial role in scaling verification through trading accuracy for speed, even when a comprehensive verifier is available. Their value becomes especially apparent when used in a generate-prune-then-rank approach, where a faster but less accurate verifier removes incorrect solutions prior to ranking -- leading to a system that is 11.65x faster while only being 8.33% less accurate than the full test suite. We analyze the generate-prune-then-rank approach and show that it works by filtering out incorrect but highly ranked solutions. These findings enable the design of scalable and accurate program ranking systems.
PDF32June 16, 2025