ChatPaper.aiChatPaper

MPBench: 프로세스 오류 식별을 위한 포괄적인 멀티모달 추론 벤치마크

MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification

March 16, 2025
저자: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang
cs.AI

초록

추론은 대규모 언어 모델(LLMs)이 복잡한 과제를 해결하기 위해 필수적인 능력이며, 이 과정에서 오류를 식별하는 것은 이러한 능력을 향상시키는 데 매우 중요합니다. 최근에는 프로세스 수준 보상 모델(PRMs)이 제안되어, 훈련 중 강화 학습과 데이터 생성을 촉진하고 추론 중 올바른 단계로 LLMs를 안내함으로써 추론 정확도를 향상시키는 단계별 보상을 제공합니다. 그러나 기존의 PRMs 벤치마크는 텍스트 기반이며 오류 탐지에 초점을 맞추고 있어, 추론 검색과 같은 다른 시나리오를 간과하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 다양한 시나리오에서 PRMs의 효과를 체계적으로 평가하기 위해 설계된 포괄적이고 다중 작업, 다중 모달 벤치마크인 MPBench을 소개합니다. MPBench은 추론 과정에서 PRMs의 특정 역할을 대상으로 하는 세 가지 평가 패러다임을 사용합니다: (1) 단계 정확성, 이는 각 중간 추론 단계의 정확성을 평가합니다; (2) 답변 집계, 이는 여러 해결책을 집계하고 최적의 해결책을 선택합니다; (3) 추론 과정 검색, 이는 추론 중 최적의 추론 단계를 찾기 위한 검색을 안내합니다. 이러한 패러다임을 통해, MPBench은 포괄적인 평가를 수행하고 다중 모달 PRMs의 개발에 대한 통찰력을 제공합니다.
English
Reasoning is an essential capacity for large language models (LLMs) to address complex tasks, where the identification of process errors is vital for improving this ability. Recently, process-level reward models (PRMs) were proposed to provide step-wise rewards that facilitate reinforcement learning and data production during training and guide LLMs toward correct steps during inference, thereby improving reasoning accuracy. However, existing benchmarks of PRMs are text-based and focus on error detection, neglecting other scenarios like reasoning search. To address this gap, we introduce MPBench, a comprehensive, multi-task, multimodal benchmark designed to systematically assess the effectiveness of PRMs in diverse scenarios. MPBench employs three evaluation paradigms, each targeting a specific role of PRMs in the reasoning process: (1) Step Correctness, which assesses the correctness of each intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple solutions and selects the best one; and (3) Reasoning Process Search, which guides the search for optimal reasoning steps during inference. Through these paradigms, MPBench makes comprehensive evaluations and provides insights into the development of multimodal PRMs.

Summary

AI-Generated Summary

PDF92March 19, 2025