MathFlow : Amélioration du flux perceptuel des MLLM pour les problèmes mathématiques visuels
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems
March 19, 2025
papers.authors: Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
cs.AI
papers.abstract
Malgré des performances impressionnantes dans diverses tâches, les Modèles de Langage Multimodaux de Grande Taille (MLLMs) n'ont pas encore pleinement démontré leur potentiel dans la résolution de problèmes mathématiques visuels, en particulier dans la perception et l'interprétation précises des diagrammes. Inspirés par les processus typiques des humains, nous émettons l'hypothèse que les capacités de perception pour extraire des informations significatives des diagrammes sont cruciales, car elles influencent directement les processus d'inférence ultérieurs. Pour valider cette hypothèse, nous avons développé FlowVerse, un benchmark complet qui catégorise toutes les informations utilisées lors de la résolution de problèmes en quatre composantes, qui sont ensuite combinées en six versions de problèmes pour l'évaluation. Nos résultats préliminaires sur FlowVerse révèlent que les MLLMs existants présentent des limitations substantielles lorsqu'il s'agit d'extraire des informations essentielles et des propriétés raisonnées à partir des diagrammes et d'effectuer des raisonnements complexes basés sur ces entrées visuelles. En réponse, nous introduisons MathFlow, un pipeline de résolution de problèmes modulaire qui découple la perception et l'inférence en étapes distinctes, optimisant ainsi chacune indépendamment. Compte tenu des limitations perceptives observées dans les MLLMs actuels, nous avons entraîné MathFlow-P-7B comme modèle de perception dédié. Les résultats expérimentaux indiquent que MathFlow-P-7B apporte des gains de performance substantiels lorsqu'il est intégré à divers modèles d'inférence propriétaires et open-source. Cela démontre l'efficacité du pipeline MathFlow et sa compatibilité avec divers frameworks d'inférence. Le benchmark FlowVerse et le code sont disponibles à l'adresse https://github.com/MathFlow-zju/MathFlow.
English
Despite impressive performance across diverse tasks, Multimodal Large
Language Models (MLLMs) have yet to fully demonstrate their potential in visual
mathematical problem-solving, particularly in accurately perceiving and
interpreting diagrams. Inspired by typical processes of humans, we hypothesize
that the perception capabilities to extract meaningful information from
diagrams is crucial, as it directly impacts subsequent inference processes. To
validate this hypothesis, we developed FlowVerse, a comprehensive benchmark
that categorizes all information used during problem-solving into four
components, which are then combined into six problem versions for evaluation.
Our preliminary results on FlowVerse reveal that existing MLLMs exhibit
substantial limitations when extracting essential information and reasoned
property from diagrams and performing complex reasoning based on these visual
inputs. In response, we introduce MathFlow, a modular problem-solving pipeline
that decouples perception and inference into distinct stages, thereby
optimizing each independently. Given the perceptual limitations observed in
current MLLMs, we trained MathFlow-P-7B as a dedicated perception model.
Experimental results indicate that MathFlow-P-7B yields substantial performance
gains when integrated with various closed-source and open-source inference
models. This demonstrates the effectiveness of the MathFlow pipeline and its
compatibility to diverse inference frameworks. The FlowVerse benchmark and code
are available at https://github.com/MathFlow-zju/MathFlow.