Solve-Detect-Verify: Scalabilità al momento dell'inferenza con Verificatore Generativo Flessibile
Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier
May 17, 2025
Autori: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu
cs.AI
Abstract
Il ragionamento dei Large Language Model (LLM) per compiti complessi implica intrinsecamente un compromesso tra accuratezza della soluzione ed efficienza computazionale. La fase successiva di verifica, sebbene concepita per migliorare le prestazioni, complica ulteriormente questo scenario introducendo un proprio difficile compromesso: i sofisticati Generative Reward Models (GenRMs) possono essere computazionalmente proibitivi se integrati in modo ingenuo con i LLM durante il test, mentre metodi più semplici e veloci potrebbero mancare di affidabilità. Per superare queste sfide, introduciamo FlexiVe, un verificatore generativo innovativo che bilancia in modo flessibile le risorse computazionali tra un pensiero rapido e affidabile e un pensiero lento e meticoloso, utilizzando una strategia di Allocazione Flessibile del Budget di Verifica. Proponiamo inoltre la pipeline Solve-Detect-Verify, un framework di scalabilità efficiente durante l'inferenza che integra in modo intelligente FlexiVe, identificando proattivamente i punti di completamento della soluzione per attivare una verifica mirata e fornire un feedback focalizzato al risolutore. Gli esperimenti dimostrano che FlexiVe raggiunge una precisione superiore nell'individuare errori all'interno delle tracce di ragionamento su ProcessBench. Inoltre, su benchmark impegnativi di ragionamento matematico (AIME 2024, AIME 2025 e CNMO), il nostro approccio completo supera i baseline come l'autoconsistenza in termini di accuratezza del ragionamento ed efficienza dell'inferenza. Il nostro sistema offre una soluzione scalabile ed efficace per migliorare il ragionamento dei LLM durante il test.
English
Large Language Model (LLM) reasoning for complex tasks inherently involves a
trade-off between solution accuracy and computational efficiency. The
subsequent step of verification, while intended to improve performance, further
complicates this landscape by introducing its own challenging trade-off:
sophisticated Generative Reward Models (GenRMs) can be computationally
prohibitive if naively integrated with LLMs at test-time, while simpler, faster
methods may lack reliability. To overcome these challenges, we introduce
FlexiVe, a novel generative verifier that flexibly balances computational
resources between rapid, reliable fast thinking and meticulous slow thinking
using a Flexible Allocation of Verification Budget strategy. We further propose
the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework
that intelligently integrates FlexiVe, proactively identifying solution
completion points to trigger targeted verification and provide focused solver
feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing
errors within reasoning traces on ProcessBench. Furthermore, on challenging
mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full
approach outperforms baselines like self-consistency in reasoning accuracy and
inference efficiency. Our system offers a scalable and effective solution to
enhance LLM reasoning at test time.