ChatPaper.aiChatPaper

Resolver-Detectar-Verificar: Escalado en Tiempo de Inferencia con Verificador Generativo Flexible

Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier

May 17, 2025
Autores: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu
cs.AI

Resumen

El razonamiento de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) para tareas complejas implica inherentemente un equilibrio entre la precisión de la solución y la eficiencia computacional. El paso subsiguiente de verificación, aunque diseñado para mejorar el rendimiento, complica aún más este panorama al introducir su propio desafío de equilibrio: los Modelos Generativos de Recompensa (GenRMs) sofisticados pueden ser computacionalmente prohibitivos si se integran de manera ingenua con los LLM durante el tiempo de prueba, mientras que métodos más simples y rápidos pueden carecer de fiabilidad. Para superar estos desafíos, presentamos FlexiVe, un verificador generativo novedoso que equilibra de manera flexible los recursos computacionales entre un pensamiento rápido y confiable y un pensamiento lento y meticuloso, utilizando una Estrategia de Asignación Flexible del Presupuesto de Verificación. Además, proponemos la canalización Resolver-Detectar-Verificar, un marco de escalado eficiente en tiempo de inferencia que integra inteligentemente FlexiVe, identificando proactivamente puntos de finalización de soluciones para activar una verificación dirigida y proporcionar retroalimentación enfocada al solucionador. Los experimentos muestran que FlexiVe logra una precisión superior en la identificación de errores dentro de trazas de razonamiento en ProcessBench. Además, en desafiantes benchmarks de razonamiento matemático (AIME 2024, AIME 2025 y CNMO), nuestro enfoque completo supera a las líneas base como la autocoherencia en precisión de razonamiento y eficiencia de inferencia. Nuestro sistema ofrece una solución escalable y efectiva para mejorar el razonamiento de los LLM durante el tiempo de prueba.
English
Large Language Model (LLM) reasoning for complex tasks inherently involves a trade-off between solution accuracy and computational efficiency. The subsequent step of verification, while intended to improve performance, further complicates this landscape by introducing its own challenging trade-off: sophisticated Generative Reward Models (GenRMs) can be computationally prohibitive if naively integrated with LLMs at test-time, while simpler, faster methods may lack reliability. To overcome these challenges, we introduce FlexiVe, a novel generative verifier that flexibly balances computational resources between rapid, reliable fast thinking and meticulous slow thinking using a Flexible Allocation of Verification Budget strategy. We further propose the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework that intelligently integrates FlexiVe, proactively identifying solution completion points to trigger targeted verification and provide focused solver feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing errors within reasoning traces on ProcessBench. Furthermore, on challenging mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full approach outperforms baselines like self-consistency in reasoning accuracy and inference efficiency. Our system offers a scalable and effective solution to enhance LLM reasoning at test time.

Summary

AI-Generated Summary

PDF31May 21, 2025