ChatPaper.aiChatPaper

Solve-Détecter-Vérifier : Mise à l'échelle au moment de l'inférence avec un vérificateur génératif flexible

Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier

May 17, 2025
Auteurs: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu
cs.AI

Résumé

Le raisonnement des modèles de langage de grande taille (LLM) pour des tâches complexes implique intrinsèquement un compromis entre la précision des solutions et l'efficacité computationnelle. L'étape subséquente de vérification, bien qu'elle vise à améliorer les performances, complique davantage ce paysage en introduisant son propre compromis difficile : les modèles génératifs de récompense sophistiqués (GenRMs) peuvent être prohibitifs sur le plan computationnel s'ils sont intégrés de manière naïve avec les LLM au moment des tests, tandis que des méthodes plus simples et plus rapides peuvent manquer de fiabilité. Pour surmonter ces défis, nous introduisons FlexiVe, un vérificateur génératif novateur qui équilibre de manière flexible les ressources computationnelles entre une pensée rapide et fiable et une pensée lente et méticuleuse en utilisant une stratégie d'allocation flexible du budget de vérification. Nous proposons également le pipeline Solve-Detect-Verify, un cadre d'échelle efficace au moment de l'inférence qui intègre intelligemment FlexiVe, en identifiant de manière proactive les points d'achèvement des solutions pour déclencher une vérification ciblée et fournir un retour d'information focalisé au solveur. Les expériences montrent que FlexiVe atteint une précision supérieure dans l'identification des erreurs au sein des traces de raisonnement sur ProcessBench. De plus, sur des benchmarks de raisonnement mathématique exigeants (AIME 2024, AIME 2025 et CNMO), notre approche complète surpasse les bases de référence comme l'auto-cohérence en termes de précision du raisonnement et d'efficacité de l'inférence. Notre système offre une solution scalable et efficace pour améliorer le raisonnement des LLM au moment des tests.
English
Large Language Model (LLM) reasoning for complex tasks inherently involves a trade-off between solution accuracy and computational efficiency. The subsequent step of verification, while intended to improve performance, further complicates this landscape by introducing its own challenging trade-off: sophisticated Generative Reward Models (GenRMs) can be computationally prohibitive if naively integrated with LLMs at test-time, while simpler, faster methods may lack reliability. To overcome these challenges, we introduce FlexiVe, a novel generative verifier that flexibly balances computational resources between rapid, reliable fast thinking and meticulous slow thinking using a Flexible Allocation of Verification Budget strategy. We further propose the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework that intelligently integrates FlexiVe, proactively identifying solution completion points to trigger targeted verification and provide focused solver feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing errors within reasoning traces on ProcessBench. Furthermore, on challenging mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full approach outperforms baselines like self-consistency in reasoning accuracy and inference efficiency. Our system offers a scalable and effective solution to enhance LLM reasoning at test time.

Summary

AI-Generated Summary

PDF31May 21, 2025