Модели вознаграждения обеспечивают масштабируемую проверку кода, жертвуя точностью ради производительности.

Аннотация

Стандартная парадигма решения задач программирования с использованием больших языковых моделей (LLMs) заключается в генерации и последующем ранжировании программ, где на этапе ранжирования используется верификатор. Распространённое мнение гласит, что всеобъемлющий верификатор (например, полный набор тестов) следует предпочесть модели оценки результата (ORM) везде, где это возможно, при этом почти не учитывая компромиссы между ними. Мы стремимся оспорить это предположение, систематически исследуя баланс между скоростью и точностью. Мы обнаруживаем, что ORM играют ключевую роль в масштабировании верификации, жертвуя точностью ради скорости, даже когда доступен всеобъемлющий верификатор. Их ценность становится особенно очевидной при использовании подхода "генерация-отсев-ранжирование", где более быстрый, но менее точный верификатор удаляет некорректные решения перед ранжированием — это приводит к системе, которая работает в 11,65 раз быстрее, будучи при этом лишь на 8,33% менее точной, чем полный набор тестов. Мы анализируем подход "генерация-отсев-ранжирование" и показываем, что он работает за счёт фильтрации некорректных, но высоко оценённых решений. Эти результаты позволяют проектировать масштабируемые и точные системы ранжирования программ.

English

The standard paradigm for solving coding tasks via large language models (LLMs) is to generate-then-rank programs, where the latter step uses a verifier in the ranking process. The growing consensus is that a comprehensive verifier (e.g., a full test suite) should be prioritized over an outcome reward model (ORM) whenever possible, with little consideration given to the trade-offs involved. We aim to challenge this assumption by systematically exploring the tradeoff between speed and accuracy. We find that ORMs play a crucial role in scaling verification through trading accuracy for speed, even when a comprehensive verifier is available. Their value becomes especially apparent when used in a generate-prune-then-rank approach, where a faster but less accurate verifier removes incorrect solutions prior to ranking -- leading to a system that is 11.65x faster while only being 8.33% less accurate than the full test suite. We analyze the generate-prune-then-rank approach and show that it works by filtering out incorrect but highly ranked solutions. These findings enable the design of scalable and accurate program ranking systems.

Модели вознаграждения обеспечивают масштабируемую проверку кода, жертвуя точностью ради производительности.

Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput

Аннотация

Support