I modelli di ricompensa abilitano la verifica scalabile del codice scambiando precisione per velocità di elaborazione.

Abstract

Il paradigma standard per risolvere compiti di codifica tramite modelli linguistici di grandi dimensioni (LLM) consiste nel generare e poi classificare i programmi, dove quest'ultimo passaggio utilizza un verificatore nel processo di classificazione. Il crescente consenso è che un verificatore completo (ad esempio, una suite di test completa) dovrebbe essere preferito rispetto a un modello di ricompensa basato sui risultati (ORM) ove possibile, con poca considerazione per i compromessi coinvolti. Il nostro obiettivo è mettere in discussione questa ipotesi esplorando sistematicamente il compromesso tra velocità e accuratezza. Scopriamo che gli ORM svolgono un ruolo cruciale nel ridimensionare la verifica scambiando accuratezza per velocità, anche quando è disponibile un verificatore completo. Il loro valore diventa particolarmente evidente quando utilizzati in un approccio di generazione-pulizia-classificazione, in cui un verificatore più veloce ma meno accurato rimuove le soluzioni errate prima della classificazione, portando a un sistema che è 11,65 volte più veloce pur essendo solo l'8,33% meno accurato rispetto alla suite di test completa. Analizziamo l'approccio di generazione-pulizia-classificazione e dimostriamo che funziona filtrando le soluzioni errate ma altamente classificate. Questi risultati consentono la progettazione di sistemi di classificazione dei programmi scalabili e accurati.

English

The standard paradigm for solving coding tasks via large language models (LLMs) is to generate-then-rank programs, where the latter step uses a verifier in the ranking process. The growing consensus is that a comprehensive verifier (e.g., a full test suite) should be prioritized over an outcome reward model (ORM) whenever possible, with little consideration given to the trade-offs involved. We aim to challenge this assumption by systematically exploring the tradeoff between speed and accuracy. We find that ORMs play a crucial role in scaling verification through trading accuracy for speed, even when a comprehensive verifier is available. Their value becomes especially apparent when used in a generate-prune-then-rank approach, where a faster but less accurate verifier removes incorrect solutions prior to ranking -- leading to a system that is 11.65x faster while only being 8.33% less accurate than the full test suite. We analyze the generate-prune-then-rank approach and show that it works by filtering out incorrect but highly ranked solutions. These findings enable the design of scalable and accurate program ranking systems.

I modelli di ricompensa abilitano la verifica scalabile del codice scambiando precisione per velocità di elaborazione.

Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput

Abstract

Support