MPBench: Un Benchmark Completo per il Ragionamento Multimodale nell'Identificazione degli Errori di Processo
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification
March 16, 2025
Autori: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang
cs.AI
Abstract
Il ragionamento è una capacità essenziale per i grandi modelli linguistici (LLMs) per affrontare compiti complessi, dove l'identificazione degli errori di processo è fondamentale per migliorare questa abilità. Recentemente, sono stati proposti modelli di ricompensa a livello di processo (PRMs) per fornire ricompense passo-passo che facilitano l'apprendimento per rinforzo e la produzione di dati durante l'addestramento, e guidano i LLMs verso passi corretti durante l'inferenza, migliorando così l'accuratezza del ragionamento. Tuttavia, i benchmark esistenti per i PRMs sono basati su testo e si concentrano sulla rilevazione degli errori, trascurando altri scenari come la ricerca del ragionamento. Per colmare questa lacuna, introduciamo MPBench, un benchmark multimodale e multi-task progettato per valutare sistematicamente l'efficacia dei PRMs in scenari diversi. MPBench utilizza tre paradigmi di valutazione, ciascuno mirato a un ruolo specifico dei PRMs nel processo di ragionamento: (1) Correttezza del Passo, che valuta la correttezza di ogni passo intermedio del ragionamento; (2) Aggregazione delle Risposte, che aggrega più soluzioni e seleziona la migliore; e (3) Ricerca del Processo di Ragionamento, che guida la ricerca dei passi ottimali di ragionamento durante l'inferenza. Attraverso questi paradigmi, MPBench effettua valutazioni complete e fornisce approfondimenti per lo sviluppo di PRMs multimodali.
English
Reasoning is an essential capacity for large language models (LLMs) to
address complex tasks, where the identification of process errors is vital for
improving this ability. Recently, process-level reward models (PRMs) were
proposed to provide step-wise rewards that facilitate reinforcement learning
and data production during training and guide LLMs toward correct steps during
inference, thereby improving reasoning accuracy. However, existing benchmarks
of PRMs are text-based and focus on error detection, neglecting other scenarios
like reasoning search. To address this gap, we introduce MPBench, a
comprehensive, multi-task, multimodal benchmark designed to systematically
assess the effectiveness of PRMs in diverse scenarios. MPBench employs three
evaluation paradigms, each targeting a specific role of PRMs in the reasoning
process: (1) Step Correctness, which assesses the correctness of each
intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple
solutions and selects the best one; and (3) Reasoning Process Search, which
guides the search for optimal reasoning steps during inference. Through these
paradigms, MPBench makes comprehensive evaluations and provides insights into
the development of multimodal PRMs.