V_1: Объединение генерации и самопроверки для параллельных систем логического вывода

Аннотация

Масштабирование на этапе тестирования для задач сложных рассуждений показывает, что использование вычислительных ресурсов на этапе логического вывода с помощью таких методов, как независимая семплизация и агрегирование множественных решений, приводит к значительному улучшению результатов выполнения задачи. Однако критическим узким местом является верификация: семплизация эффективна только в том случае, если корректные решения можно надежно идентифицировать среди кандидатов. В то время как существующие подходы обычно оценивают кандидатов независимо с помощью скалярного скоринга, мы демонстрируем, что модели значительно сильнее в попарной самоверификации. Используя это наблюдение, мы представляем V_1 — фреймворк, который объединяет генерацию и верификацию посредством эффективного попарного ранжирования. V_1 состоит из двух компонентов: V_1-Infer, алгоритма с управлением по неопределенности, который использует ранжирование на основе турнира для динамического распределения вычислительных ресурсов самоверификации на пары кандидатов, чья относительная корректность наиболее неопределенна; и V_1-PairRL, фреймворка обучения с подкреплением (RL), который совместно обучает одну модель как в роли генератора, так и в роли попарного самоверификатора, обеспечивая адаптацию верификатора к эволюционирующему распределению генератора. На бенчмарках генерации кода (LiveCodeBench, CodeContests, SWE-Bench) и математических рассуждений (AIME, HMMT) V_1-Infer улучшает показатель Pass@1 до 10% по сравнению с поточечной верификацией и превосходит последние методы масштабирования на этапе тестирования, будучи при этом значительно более эффективным. Кроме того, V_1-PairRL обеспечивает прирост от масштабирования на этапе тестирования в 7–9% по сравнению со стандартным RL и совместным поточечным обучением, а также улучшает базовый показатель Pass@1 до 8.7% по сравнению со стандартным RL в настройке генерации кода.

English

Test-time scaling for complex reasoning tasks shows that leveraging inference-time compute, by methods such as independently sampling and aggregating multiple solutions, results in significantly better task outcomes. However, a critical bottleneck is verification: sampling is only effective if correct solutions can be reliably identified among candidates. While existing approaches typically evaluate candidates independently via scalar scoring, we demonstrate that models are substantially stronger at pairwise self-verification. Leveraging this insight, we introduce V_1, a framework that unifies generation and verification through efficient pairwise ranking. V_1 comprises two components: V_1-Infer, an uncertainty-guided algorithm using a tournament-based ranking that dynamically allocates self-verification compute to candidate pairs whose relative correctness is most uncertain; and V_1-PairRL, an RL framework that jointly trains a single model as both generator and pairwise self-verifier, ensuring the verifier adapts to the generator's evolving distribution. On code generation (LiveCodeBench, CodeContests, SWE-Bench) and math reasoning (AIME, HMMT) benchmarks, V_1-Infer improves Pass@1 by up to 10% over pointwise verification and outperforms recent test-time scaling methods while being significantly more efficient. Furthermore, V_1-PairRL achieves 7--9% test-time scaling gains over standard RL and pointwise joint training, and improves base Pass@1 by up to 8.7% over standard RL in a code-generation setting.

V_1: Объединение генерации и самопроверки для параллельных систем логического вывода

V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Аннотация

Support