MPBench: Um Benchmark Abrangente de Raciocínio Multimodal para Identificação de Erros de Processo
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification
March 16, 2025
Autores: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang
cs.AI
Resumo
O raciocínio é uma capacidade essencial para modelos de linguagem de grande escala (LLMs) abordarem tarefas complexas, onde a identificação de erros no processo é vital para aprimorar essa habilidade. Recentemente, modelos de recompensa em nível de processo (PRMs) foram propostos para fornecer recompensas passo a passo que facilitam o aprendizado por reforço e a produção de dados durante o treinamento, além de guiar os LLMs em direção a etapas corretas durante a inferência, melhorando assim a precisão do raciocínio. No entanto, os benchmarks existentes para PRMs são baseados em texto e focam na detecção de erros, negligenciando outros cenários, como a busca por raciocínio. Para preencher essa lacuna, introduzimos o MPBench, um benchmark abrangente, multitarefa e multimodal projetado para avaliar sistematicamente a eficácia dos PRMs em diversos cenários. O MPBench emprega três paradigmas de avaliação, cada um direcionado a um papel específico dos PRMs no processo de raciocínio: (1) Correção de Etapas, que avalia a correção de cada etapa intermediária do raciocínio; (2) Agregação de Respostas, que agrega múltiplas soluções e seleciona a melhor; e (3) Busca no Processo de Raciocínio, que orienta a busca por etapas ótimas de raciocínio durante a inferência. Por meio desses paradigmas, o MPBench realiza avaliações abrangentes e fornece insights para o desenvolvimento de PRMs multimodais.
English
Reasoning is an essential capacity for large language models (LLMs) to
address complex tasks, where the identification of process errors is vital for
improving this ability. Recently, process-level reward models (PRMs) were
proposed to provide step-wise rewards that facilitate reinforcement learning
and data production during training and guide LLMs toward correct steps during
inference, thereby improving reasoning accuracy. However, existing benchmarks
of PRMs are text-based and focus on error detection, neglecting other scenarios
like reasoning search. To address this gap, we introduce MPBench, a
comprehensive, multi-task, multimodal benchmark designed to systematically
assess the effectiveness of PRMs in diverse scenarios. MPBench employs three
evaluation paradigms, each targeting a specific role of PRMs in the reasoning
process: (1) Step Correctness, which assesses the correctness of each
intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple
solutions and selects the best one; and (3) Reasoning Process Search, which
guides the search for optimal reasoning steps during inference. Through these
paradigms, MPBench makes comprehensive evaluations and provides insights into
the development of multimodal PRMs.Summary
AI-Generated Summary