MPBench: Комплексный мультимодальный бенчмарк для выявления ошибок процессов на основе рассуждений
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification
March 16, 2025
Авторы: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang
cs.AI
Аннотация
Способность к рассуждению является важнейшим качеством больших языковых моделей (LLM) для решения сложных задач, где выявление ошибок в процессе играет ключевую роль в улучшении этой способности. Недавно были предложены модели поощрения на уровне процесса (PRM), которые предоставляют пошаговые вознаграждения, способствующие обучению с подкреплением и генерации данных в процессе обучения, а также направляют LLM на правильные шаги во время вывода, тем самым повышая точность рассуждений. Однако существующие тесты для PRM основаны на тексте и сосредоточены на обнаружении ошибок, игнорируя другие сценарии, такие как поиск в процессе рассуждений. Чтобы устранить этот пробел, мы представляем MPBench — комплексный, многозадачный, мультимодальный тест, разработанный для систематической оценки эффективности PRM в различных сценариях. MPBench использует три парадигмы оценки, каждая из которых направлена на конкретную роль PRM в процессе рассуждений: (1) Корректность шага, которая оценивает правильность каждого промежуточного шага рассуждения; (2) Агрегация ответов, которая объединяет несколько решений и выбирает наилучшее; и (3) Поиск процесса рассуждений, который направляет поиск оптимальных шагов рассуждения во время вывода. Благодаря этим парадигмам MPBench проводит всесторонние оценки и предоставляет ценные инсайты для разработки мультимодальных PRM.
English
Reasoning is an essential capacity for large language models (LLMs) to
address complex tasks, where the identification of process errors is vital for
improving this ability. Recently, process-level reward models (PRMs) were
proposed to provide step-wise rewards that facilitate reinforcement learning
and data production during training and guide LLMs toward correct steps during
inference, thereby improving reasoning accuracy. However, existing benchmarks
of PRMs are text-based and focus on error detection, neglecting other scenarios
like reasoning search. To address this gap, we introduce MPBench, a
comprehensive, multi-task, multimodal benchmark designed to systematically
assess the effectiveness of PRMs in diverse scenarios. MPBench employs three
evaluation paradigms, each targeting a specific role of PRMs in the reasoning
process: (1) Step Correctness, which assesses the correctness of each
intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple
solutions and selects the best one; and (3) Reasoning Process Search, which
guides the search for optimal reasoning steps during inference. Through these
paradigms, MPBench makes comprehensive evaluations and provides insights into
the development of multimodal PRMs.Summary
AI-Generated Summary