Resolver-Detectar-Verificar: Escalado en Tiempo de Inferencia con Verificador Generativo Flexible
Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier
May 17, 2025
Autores: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu
cs.AI
Resumen
El razonamiento de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) para tareas complejas implica inherentemente un equilibrio entre la precisión de la solución y la eficiencia computacional. El paso subsiguiente de verificación, aunque diseñado para mejorar el rendimiento, complica aún más este panorama al introducir su propio desafío de equilibrio: los Modelos Generativos de Recompensa (GenRMs) sofisticados pueden ser computacionalmente prohibitivos si se integran de manera ingenua con los LLM durante el tiempo de prueba, mientras que métodos más simples y rápidos pueden carecer de fiabilidad. Para superar estos desafíos, presentamos FlexiVe, un verificador generativo novedoso que equilibra de manera flexible los recursos computacionales entre un pensamiento rápido y confiable y un pensamiento lento y meticuloso, utilizando una Estrategia de Asignación Flexible del Presupuesto de Verificación. Además, proponemos la canalización Resolver-Detectar-Verificar, un marco de escalado eficiente en tiempo de inferencia que integra inteligentemente FlexiVe, identificando proactivamente puntos de finalización de soluciones para activar una verificación dirigida y proporcionar retroalimentación enfocada al solucionador. Los experimentos muestran que FlexiVe logra una precisión superior en la identificación de errores dentro de trazas de razonamiento en ProcessBench. Además, en desafiantes benchmarks de razonamiento matemático (AIME 2024, AIME 2025 y CNMO), nuestro enfoque completo supera a las líneas base como la autocoherencia en precisión de razonamiento y eficiencia de inferencia. Nuestro sistema ofrece una solución escalable y efectiva para mejorar el razonamiento de los LLM durante el tiempo de prueba.
English
Large Language Model (LLM) reasoning for complex tasks inherently involves a
trade-off between solution accuracy and computational efficiency. The
subsequent step of verification, while intended to improve performance, further
complicates this landscape by introducing its own challenging trade-off:
sophisticated Generative Reward Models (GenRMs) can be computationally
prohibitive if naively integrated with LLMs at test-time, while simpler, faster
methods may lack reliability. To overcome these challenges, we introduce
FlexiVe, a novel generative verifier that flexibly balances computational
resources between rapid, reliable fast thinking and meticulous slow thinking
using a Flexible Allocation of Verification Budget strategy. We further propose
the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework
that intelligently integrates FlexiVe, proactively identifying solution
completion points to trigger targeted verification and provide focused solver
feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing
errors within reasoning traces on ProcessBench. Furthermore, on challenging
mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full
approach outperforms baselines like self-consistency in reasoning accuracy and
inference efficiency. Our system offers a scalable and effective solution to
enhance LLM reasoning at test time.Summary
AI-Generated Summary