ChatPaper.aiChatPaper

Solve-Detect-Verify: Schaalbaarheid tijdens Inferentie met Flexibele Generatieve Verificatie

Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier

May 17, 2025
Auteurs: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu
cs.AI

Samenvatting

Redeneren met grote taalmodellen (LLM's) voor complexe taken brengt inherent een afweging met zich mee tussen nauwkeurigheid van de oplossing en rekenkundige efficiëntie. De daaropvolgende verificatiestap, die bedoeld is om de prestaties te verbeteren, maakt dit landschap nog complexer door een eigen uitdagende afweging te introduceren: geavanceerde Generatieve Beloningsmodellen (GenRMs) kunnen rekenkundig onhaalbaar zijn als ze naïef worden geïntegreerd met LLM's tijdens testtijd, terwijl eenvoudigere, snellere methoden mogelijk onbetrouwbaar zijn. Om deze uitdagingen te overwinnen, introduceren we FlexiVe, een innovatieve generatieve verificateur die flexibel rekenkundige middelen balanceert tussen snel, betrouwbaar snel denken en nauwgezet langzaam denken met behulp van een Flexibele Toewijzing van Verificatiebudget-strategie. We stellen verder de Solve-Detect-Verify-pijplijn voor, een efficiënt schaalbaar raamwerk voor inferentietijd dat FlexiVe intelligent integreert, waarbij proactief oplossingsvoltooiingspunten worden geïdentificeerd om gerichte verificatie te activeren en gerichte feedback aan de oplosser te geven. Experimenten tonen aan dat FlexiVe superieure nauwkeurigheid bereikt in het identificeren van fouten binnen redeneersporen op ProcessBench. Bovendien presteert onze volledige aanpak op uitdagende wiskundige redeneerbenchmarks (AIME 2024, AIME 2025 en CNMO) beter dan basislijnen zoals zelfconsistentie in redeneernauwkeurigheid en inferentie-efficiëntie. Ons systeem biedt een schaalbare en effectieve oplossing om LLM-redeneren tijdens testtijd te verbeteren.
English
Large Language Model (LLM) reasoning for complex tasks inherently involves a trade-off between solution accuracy and computational efficiency. The subsequent step of verification, while intended to improve performance, further complicates this landscape by introducing its own challenging trade-off: sophisticated Generative Reward Models (GenRMs) can be computationally prohibitive if naively integrated with LLMs at test-time, while simpler, faster methods may lack reliability. To overcome these challenges, we introduce FlexiVe, a novel generative verifier that flexibly balances computational resources between rapid, reliable fast thinking and meticulous slow thinking using a Flexible Allocation of Verification Budget strategy. We further propose the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework that intelligently integrates FlexiVe, proactively identifying solution completion points to trigger targeted verification and provide focused solver feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing errors within reasoning traces on ProcessBench. Furthermore, on challenging mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full approach outperforms baselines like self-consistency in reasoning accuracy and inference efficiency. Our system offers a scalable and effective solution to enhance LLM reasoning at test time.

Summary

AI-Generated Summary

PDF52May 21, 2025