Los modelos de recompensa permiten la verificación escalable de código al intercambiar precisión por rendimiento.

Resumen

El paradigma estándar para resolver tareas de codificación mediante modelos de lenguaje grandes (LLMs) es generar y luego clasificar programas, donde este último paso utiliza un verificador en el proceso de clasificación. Existe un consenso creciente de que un verificador exhaustivo (por ejemplo, un conjunto completo de pruebas) debería priorizarse sobre un modelo de recompensa basado en resultados (ORM) siempre que sea posible, con poca consideración de las compensaciones involucradas. Nuestro objetivo es desafiar esta suposición explorando sistemáticamente el equilibrio entre velocidad y precisión. Descubrimos que los ORMs desempeñan un papel crucial en la escalabilidad de la verificación al intercambiar precisión por velocidad, incluso cuando está disponible un verificador exhaustivo. Su valor se vuelve especialmente evidente cuando se utiliza en un enfoque de generar-podar-y-luego-clasificar, donde un verificador más rápido pero menos preciso elimina soluciones incorrectas antes de la clasificación, lo que resulta en un sistema 11.65 veces más rápido y solo un 8.33% menos preciso que el conjunto completo de pruebas. Analizamos el enfoque de generar-podar-y-luego-clasificar y demostramos que funciona filtrando soluciones incorrectas pero altamente clasificadas. Estos hallazgos permiten el diseño de sistemas escalables y precisos para la clasificación de programas.

English

The standard paradigm for solving coding tasks via large language models (LLMs) is to generate-then-rank programs, where the latter step uses a verifier in the ranking process. The growing consensus is that a comprehensive verifier (e.g., a full test suite) should be prioritized over an outcome reward model (ORM) whenever possible, with little consideration given to the trade-offs involved. We aim to challenge this assumption by systematically exploring the tradeoff between speed and accuracy. We find that ORMs play a crucial role in scaling verification through trading accuracy for speed, even when a comprehensive verifier is available. Their value becomes especially apparent when used in a generate-prune-then-rank approach, where a faster but less accurate verifier removes incorrect solutions prior to ranking -- leading to a system that is 11.65x faster while only being 8.33% less accurate than the full test suite. We analyze the generate-prune-then-rank approach and show that it works by filtering out incorrect but highly ranked solutions. These findings enable the design of scalable and accurate program ranking systems.

Los modelos de recompensa permiten la verificación escalable de código al intercambiar precisión por rendimiento.

Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput

Resumen

Support