Solve-Detect-Verify: Skalierung zur Inferenzzeit mit flexiblem generativem Verifizierer
Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier
May 17, 2025
Autoren: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu
cs.AI
Zusammenfassung
Das Reasoning von Large Language Models (LLMs) für komplexe Aufgaben beinhaltet inhärent einen Kompromiss zwischen Lösungsgenauigkeit und Recheneffizienz. Der nachfolgende Schritt der Verifikation, der zwar die Leistung verbessern soll, erschwert diese Situation weiter, indem er einen eigenen anspruchsvollen Kompromiss einführt: anspruchsvolle Generative Reward Models (GenRMs) können rechenintensiv sein, wenn sie naiv mit LLMs zur Testzeit integriert werden, während einfachere, schnellere Methoden möglicherweise an Zuverlässigkeit mangeln. Um diese Herausforderungen zu bewältigen, führen wir FlexiVe ein, einen neuartigen generativen Verifizierer, der mithilfe einer flexiblen Zuweisung des Verifikationsbudgets (Flexible Allocation of Verification Budget) Rechenressourcen zwischen schnellem, zuverlässigem „Fast Thinking“ und sorgfältigem „Slow Thinking“ ausbalanciert. Wir schlagen außerdem die Solve-Detect-Verify-Pipeline vor, ein effizientes Inferenzzeit-Skalierungsframework, das FlexiVe intelligent integriert, proaktiv Lösungspunkte identifiziert, um gezielte Verifikation auszulösen und fokussiertes Feedback für den Solver bereitzustellen. Experimente zeigen, dass FlexiVe eine überlegene Genauigkeit bei der Identifizierung von Fehlern in Reasoning-Traces auf ProcessBench erreicht. Darüber hinaus übertrifft unser vollständiger Ansatz auf anspruchsvollen mathematischen Reasoning-Benchmarks (AIME 2024, AIME 2025 und CNMO) Baseline-Methoden wie Self-Consistency sowohl in der Reasoning-Genauigkeit als auch in der Inferenz-Effizienz. Unser System bietet eine skalierbare und effektive Lösung, um das Reasoning von LLMs zur Testzeit zu verbessern.
English
Large Language Model (LLM) reasoning for complex tasks inherently involves a
trade-off between solution accuracy and computational efficiency. The
subsequent step of verification, while intended to improve performance, further
complicates this landscape by introducing its own challenging trade-off:
sophisticated Generative Reward Models (GenRMs) can be computationally
prohibitive if naively integrated with LLMs at test-time, while simpler, faster
methods may lack reliability. To overcome these challenges, we introduce
FlexiVe, a novel generative verifier that flexibly balances computational
resources between rapid, reliable fast thinking and meticulous slow thinking
using a Flexible Allocation of Verification Budget strategy. We further propose
the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework
that intelligently integrates FlexiVe, proactively identifying solution
completion points to trigger targeted verification and provide focused solver
feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing
errors within reasoning traces on ProcessBench. Furthermore, on challenging
mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full
approach outperforms baselines like self-consistency in reasoning accuracy and
inference efficiency. Our system offers a scalable and effective solution to
enhance LLM reasoning at test time.Summary
AI-Generated Summary