MPBench : Un benchmark complet de raisonnement multimodal pour l'identification des erreurs de processus
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification
March 16, 2025
Auteurs: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang
cs.AI
Résumé
Le raisonnement est une capacité essentielle pour les grands modèles de langage (LLMs) afin de traiter des tâches complexes, où l'identification des erreurs de processus est cruciale pour améliorer cette aptitude. Récemment, des modèles de récompense au niveau du processus (PRMs) ont été proposés pour fournir des récompenses étape par étape, facilitant l'apprentissage par renforcement et la production de données pendant l'entraînement, et guidant les LLMs vers des étapes correctes lors de l'inférence, améliorant ainsi la précision du raisonnement. Cependant, les benchmarks existants pour les PRMs sont basés sur le texte et se concentrent sur la détection d'erreurs, négligeant d'autres scénarios comme la recherche de raisonnement. Pour combler cette lacune, nous introduisons MPBench, un benchmark multimodal et multi-tâches conçu pour évaluer systématiquement l'efficacité des PRMs dans divers scénarios. MPBench emploie trois paradigmes d'évaluation, chacun ciblant un rôle spécifique des PRMs dans le processus de raisonnement : (1) la Correction des Étapes, qui évalue la justesse de chaque étape intermédiaire du raisonnement ; (2) l'Aggrégation des Réponses, qui regroupe plusieurs solutions et sélectionne la meilleure ; et (3) la Recherche de Processus de Raisonnement, qui guide la recherche des étapes optimales de raisonnement pendant l'inférence. À travers ces paradigmes, MPBench permet des évaluations complètes et offre des perspectives pour le développement de PRMs multimodaux.
English
Reasoning is an essential capacity for large language models (LLMs) to
address complex tasks, where the identification of process errors is vital for
improving this ability. Recently, process-level reward models (PRMs) were
proposed to provide step-wise rewards that facilitate reinforcement learning
and data production during training and guide LLMs toward correct steps during
inference, thereby improving reasoning accuracy. However, existing benchmarks
of PRMs are text-based and focus on error detection, neglecting other scenarios
like reasoning search. To address this gap, we introduce MPBench, a
comprehensive, multi-task, multimodal benchmark designed to systematically
assess the effectiveness of PRMs in diverse scenarios. MPBench employs three
evaluation paradigms, each targeting a specific role of PRMs in the reasoning
process: (1) Step Correctness, which assesses the correctness of each
intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple
solutions and selects the best one; and (3) Reasoning Process Search, which
guides the search for optimal reasoning steps during inference. Through these
paradigms, MPBench makes comprehensive evaluations and provides insights into
the development of multimodal PRMs.Summary
AI-Generated Summary