ChatPaper.aiChatPaper

MPBench: Een Uitgebreide Multimodale Redeneerbenchmark voor het Identificeren van Procesfouten

MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification

March 16, 2025
Auteurs: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang
cs.AI

Samenvatting

Redeneren is een essentiële capaciteit voor grote taalmodellen (LLMs) om complexe taken aan te pakken, waarbij het identificeren van procesfouten cruciaal is voor het verbeteren van deze vaardigheid. Recentelijk zijn procesniveau beloningsmodellen (PRMs) voorgesteld om stapgewijze beloningen te bieden die reinforcement learning en dataproductie tijdens de training faciliteren en LLMs tijdens de inferentie naar correcte stappen leiden, waardoor de nauwkeurigheid van het redeneren wordt verbeterd. Echter, bestaande benchmarks voor PRMs zijn tekstgebaseerd en richten zich op foutdetectie, waarbij andere scenario's zoals redeneerzoeken worden verwaarloosd. Om deze leemte aan te pakken, introduceren wij MPBench, een uitgebreide, multitask, multimodale benchmark die is ontworpen om de effectiviteit van PRMs in diverse scenario's systematisch te beoordelen. MPBench maakt gebruik van drie evaluatieparadigma's, elk gericht op een specifieke rol van PRMs in het redeneerproces: (1) Stapcorrectheid, dat de juistheid van elke tussenliggende redeneerstap beoordeelt; (2) Antwoordaggregatie, dat meerdere oplossingen aggregeert en de beste selecteert; en (3) Redeneerproceszoeken, dat het zoeken naar optimale redeneerstappen tijdens de inferentie begeleidt. Door deze paradigma's biedt MPBench uitgebreide evaluaties en inzichten in de ontwikkeling van multimodale PRMs.
English
Reasoning is an essential capacity for large language models (LLMs) to address complex tasks, where the identification of process errors is vital for improving this ability. Recently, process-level reward models (PRMs) were proposed to provide step-wise rewards that facilitate reinforcement learning and data production during training and guide LLMs toward correct steps during inference, thereby improving reasoning accuracy. However, existing benchmarks of PRMs are text-based and focus on error detection, neglecting other scenarios like reasoning search. To address this gap, we introduce MPBench, a comprehensive, multi-task, multimodal benchmark designed to systematically assess the effectiveness of PRMs in diverse scenarios. MPBench employs three evaluation paradigms, each targeting a specific role of PRMs in the reasoning process: (1) Step Correctness, which assesses the correctness of each intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple solutions and selects the best one; and (3) Reasoning Process Search, which guides the search for optimal reasoning steps during inference. Through these paradigms, MPBench makes comprehensive evaluations and provides insights into the development of multimodal PRMs.

Summary

AI-Generated Summary

PDF92March 19, 2025