Решай-Обнаруживай-Проверяй: Масштабирование на этапе вывода с гибким генеративным верификатором
Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier
May 17, 2025
Авторы: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu
cs.AI
Аннотация
Рассуждения больших языковых моделей (LLM) для сложных задач неизбежно связаны с компромиссом между точностью решения и вычислительной эффективностью. Последующий этап проверки, хотя и направлен на повышение производительности, дополнительно усложняет эту картину, вводя собственный сложный компромисс: сложные генеративные модели вознаграждения (GenRMs) могут быть вычислительно непосильными, если их наивно интегрировать с LLM на этапе тестирования, в то время как более простые и быстрые методы могут быть недостаточно надежными. Для преодоления этих трудностей мы представляем FlexiVe — новый генеративный верификатор, который гибко балансирует вычислительные ресурсы между быстрым и надежным "быстрым мышлением" и тщательным "медленным мышлением", используя стратегию гибкого распределения бюджета проверки. Мы также предлагаем конвейер Solve-Detect-Verify — эффективную структуру масштабирования на этапе вывода, которая интеллектуально интегрирует FlexiVe, заранее определяя точки завершения решения для запуска целевой проверки и предоставления сфокусированной обратной связи решателю. Эксперименты показывают, что FlexiVe достигает превосходной точности в выявлении ошибок в траекториях рассуждений на ProcessBench. Кроме того, на сложных математических тестах рассуждений (AIME 2024, AIME 2025 и CNMO) наш полный подход превосходит базовые методы, такие как самосогласованность, по точности рассуждений и эффективности вывода. Наша система предлагает масштабируемое и эффективное решение для улучшения рассуждений LLM на этапе тестирования.
English
Large Language Model (LLM) reasoning for complex tasks inherently involves a
trade-off between solution accuracy and computational efficiency. The
subsequent step of verification, while intended to improve performance, further
complicates this landscape by introducing its own challenging trade-off:
sophisticated Generative Reward Models (GenRMs) can be computationally
prohibitive if naively integrated with LLMs at test-time, while simpler, faster
methods may lack reliability. To overcome these challenges, we introduce
FlexiVe, a novel generative verifier that flexibly balances computational
resources between rapid, reliable fast thinking and meticulous slow thinking
using a Flexible Allocation of Verification Budget strategy. We further propose
the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework
that intelligently integrates FlexiVe, proactively identifying solution
completion points to trigger targeted verification and provide focused solver
feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing
errors within reasoning traces on ProcessBench. Furthermore, on challenging
mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full
approach outperforms baselines like self-consistency in reasoning accuracy and
inference efficiency. Our system offers a scalable and effective solution to
enhance LLM reasoning at test time.Summary
AI-Generated Summary