MathFlow: Migliorare il Flusso Percettivo dei MLLM per Problemi Matematici Visivi
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems
March 19, 2025
Autori: Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
cs.AI
Abstract
Nonostante le prestazioni impressionanti in una vasta gamma di compiti, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) devono ancora dimostrare appieno il loro potenziale nella risoluzione di problemi matematici visivi, in particolare nell'accurata percezione e interpretazione dei diagrammi. Ispirati dai processi tipici degli esseri umani, ipotizziamo che le capacità percettive per estrarre informazioni significative dai diagrammi siano cruciali, poiché influenzano direttamente i successivi processi di inferenza. Per validare questa ipotesi, abbiamo sviluppato FlowVerse, un benchmark completo che categorizza tutte le informazioni utilizzate durante la risoluzione dei problemi in quattro componenti, che vengono poi combinate in sei versioni di problemi per la valutazione. I nostri risultati preliminari su FlowVerse rivelano che gli attuali MLLMs presentano limitazioni significative nell'estrazione di informazioni essenziali e proprietà ragionate dai diagrammi e nell'esecuzione di ragionamenti complessi basati su questi input visivi. In risposta, introduciamo MathFlow, una pipeline modulare per la risoluzione di problemi che separa la percezione e l'inferenza in fasi distinte, ottimizzando così ciascuna in modo indipendente. Date le limitazioni percettive osservate negli attuali MLLMs, abbiamo addestrato MathFlow-P-7B come modello di percezione dedicato. I risultati sperimentali indicano che MathFlow-P-7B produce sostanziali miglioramenti delle prestazioni quando integrato con vari modelli di inferenza sia proprietari che open-source. Ciò dimostra l'efficacia della pipeline MathFlow e la sua compatibilità con diversi framework di inferenza. Il benchmark FlowVerse e il codice sono disponibili all'indirizzo https://github.com/MathFlow-zju/MathFlow.
English
Despite impressive performance across diverse tasks, Multimodal Large
Language Models (MLLMs) have yet to fully demonstrate their potential in visual
mathematical problem-solving, particularly in accurately perceiving and
interpreting diagrams. Inspired by typical processes of humans, we hypothesize
that the perception capabilities to extract meaningful information from
diagrams is crucial, as it directly impacts subsequent inference processes. To
validate this hypothesis, we developed FlowVerse, a comprehensive benchmark
that categorizes all information used during problem-solving into four
components, which are then combined into six problem versions for evaluation.
Our preliminary results on FlowVerse reveal that existing MLLMs exhibit
substantial limitations when extracting essential information and reasoned
property from diagrams and performing complex reasoning based on these visual
inputs. In response, we introduce MathFlow, a modular problem-solving pipeline
that decouples perception and inference into distinct stages, thereby
optimizing each independently. Given the perceptual limitations observed in
current MLLMs, we trained MathFlow-P-7B as a dedicated perception model.
Experimental results indicate that MathFlow-P-7B yields substantial performance
gains when integrated with various closed-source and open-source inference
models. This demonstrates the effectiveness of the MathFlow pipeline and its
compatibility to diverse inference frameworks. The FlowVerse benchmark and code
are available at https://github.com/MathFlow-zju/MathFlow.