Solve-Detectar-Verificar: Escalonamento no Tempo de Inferência com Verificador Generativo Flexível
Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier
May 17, 2025
Autores: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu
cs.AI
Resumo
O raciocínio de Modelos de Linguagem de Grande Escala (LLMs) para tarefas complexas envolve, por natureza, uma compensação entre a precisão da solução e a eficiência computacional. A etapa subsequente de verificação, embora tenha o objetivo de melhorar o desempenho, complica ainda mais esse cenário ao introduzir sua própria compensação desafiadora: Modelos de Recompensa Generativos (GenRMs) sofisticados podem ser proibitivamente caros computacionalmente se integrados de forma ingênua com LLMs durante o teste, enquanto métodos mais simples e rápidos podem carecer de confiabilidade. Para superar esses desafios, introduzimos o FlexiVe, um verificador generativo inovador que equilibra de forma flexível os recursos computacionais entre o pensamento rápido e confiável e o pensamento lento e meticuloso, utilizando uma Estratégia de Alocação Flexível de Orçamento de Verificação. Além disso, propomos o pipeline Solve-Detect-Verify, uma estrutura de escalonamento eficiente em tempo de inferência que integra inteligentemente o FlexiVe, identificando proativamente pontos de conclusão da solução para acionar a verificação direcionada e fornecer feedback focado ao resolvedor. Experimentos mostram que o FlexiVe alcança uma precisão superior na identificação de erros dentro de traços de raciocínio no ProcessBench. Além disso, em benchmarks desafiadores de raciocínio matemático (AIME 2024, AIME 2025 e CNMO), nossa abordagem completa supera baselines como a autoconsistência em precisão de raciocínio e eficiência de inferência. Nosso sistema oferece uma solução escalável e eficaz para aprimorar o raciocínio de LLMs durante o teste.
English
Large Language Model (LLM) reasoning for complex tasks inherently involves a
trade-off between solution accuracy and computational efficiency. The
subsequent step of verification, while intended to improve performance, further
complicates this landscape by introducing its own challenging trade-off:
sophisticated Generative Reward Models (GenRMs) can be computationally
prohibitive if naively integrated with LLMs at test-time, while simpler, faster
methods may lack reliability. To overcome these challenges, we introduce
FlexiVe, a novel generative verifier that flexibly balances computational
resources between rapid, reliable fast thinking and meticulous slow thinking
using a Flexible Allocation of Verification Budget strategy. We further propose
the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework
that intelligently integrates FlexiVe, proactively identifying solution
completion points to trigger targeted verification and provide focused solver
feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing
errors within reasoning traces on ProcessBench. Furthermore, on challenging
mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full
approach outperforms baselines like self-consistency in reasoning accuracy and
inference efficiency. Our system offers a scalable and effective solution to
enhance LLM reasoning at test time.