ChatPaper.aiChatPaper

Dyve : Penser vite et lentement pour la vérification dynamique des processus

Dyve: Thinking Fast and Slow for Dynamic Process Verification

February 16, 2025
Auteurs: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Qiang Xu
cs.AI

Résumé

Nous présentons Dyve, un vérificateur de processus dynamique qui améliore la détection des erreurs de raisonnement dans les grands modèles de langage en intégrant la pensée rapide et lente, inspiré par la théorie des systèmes de Kahneman. Dyve applique de manière adaptative la confirmation immédiate au niveau des tokens (Système 1) pour les étapes simples et une analyse approfondie (Système 2) pour les étapes complexes. En exploitant une technique novatrice de supervision de processus filtré par consensus étape par étape, combinant l'estimation de Monte Carlo avec l'évaluation basée sur les modèles de langage, Dyve génère des signaux de supervision de haute qualité à partir de données bruyantes. Les résultats expérimentaux sur ProcessBench et le jeu de données MATH confirment que Dyve surpasse significativement les vérificateurs de processus existants et améliore les performances dans les configurations Best-of-N.
English
We present Dyve, a dynamic process verifier that enhances reasoning error detection in large language models by integrating fast and slow thinking, inspired by Kahneman's Systems Theory. Dyve adaptively applies immediate token-level confirmation System 1 for straightforward steps and comprehensive analysis System 2 for complex ones. Leveraging a novel step-wise consensus-filtered process supervision technique, combining Monte Carlo estimation with LLM based evaluation, Dyve curates high-quality supervision signals from noisy data. Experimental results on ProcessBench and the MATH dataset confirm that Dyve significantly outperforms existing process-based verifiers and boosts performance in Best-of-N settings.

Summary

AI-Generated Summary

PDF72February 18, 2025