MathFlow: Mejorando el Flujo Perceptivo de los MLLM para Problemas Matemáticos Visuales
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems
March 19, 2025
Autores: Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
cs.AI
Resumen
A pesar de su impresionante rendimiento en diversas tareas, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) aún no han demostrado plenamente su potencial en la resolución de problemas matemáticos visuales, particularmente en la percepción e interpretación precisa de diagramas. Inspirados por los procesos típicos de los humanos, planteamos la hipótesis de que las capacidades de percepción para extraer información significativa de los diagramas son cruciales, ya que impactan directamente en los procesos de inferencia posteriores. Para validar esta hipótesis, desarrollamos FlowVerse, un benchmark integral que categoriza toda la información utilizada durante la resolución de problemas en cuatro componentes, los cuales se combinan en seis versiones de problemas para su evaluación. Nuestros resultados preliminares en FlowVerse revelan que los MLLMs existentes presentan limitaciones significativas al extraer información esencial y propiedades razonadas de los diagramas, así como al realizar razonamientos complejos basados en estas entradas visuales. En respuesta, introducimos MathFlow, una canalización modular de resolución de problemas que desacopla la percepción y la inferencia en etapas distintas, optimizando cada una de manera independiente. Dadas las limitaciones perceptivas observadas en los MLLMs actuales, entrenamos MathFlow-P-7B como un modelo de percepción dedicado. Los resultados experimentales indican que MathFlow-P-7B produce mejoras sustanciales en el rendimiento cuando se integra con diversos modelos de inferencia, tanto de código cerrado como abierto. Esto demuestra la efectividad de la canalización MathFlow y su compatibilidad con diversos marcos de inferencia. El benchmark FlowVerse y el código están disponibles en https://github.com/MathFlow-zju/MathFlow.
English
Despite impressive performance across diverse tasks, Multimodal Large
Language Models (MLLMs) have yet to fully demonstrate their potential in visual
mathematical problem-solving, particularly in accurately perceiving and
interpreting diagrams. Inspired by typical processes of humans, we hypothesize
that the perception capabilities to extract meaningful information from
diagrams is crucial, as it directly impacts subsequent inference processes. To
validate this hypothesis, we developed FlowVerse, a comprehensive benchmark
that categorizes all information used during problem-solving into four
components, which are then combined into six problem versions for evaluation.
Our preliminary results on FlowVerse reveal that existing MLLMs exhibit
substantial limitations when extracting essential information and reasoned
property from diagrams and performing complex reasoning based on these visual
inputs. In response, we introduce MathFlow, a modular problem-solving pipeline
that decouples perception and inference into distinct stages, thereby
optimizing each independently. Given the perceptual limitations observed in
current MLLMs, we trained MathFlow-P-7B as a dedicated perception model.
Experimental results indicate that MathFlow-P-7B yields substantial performance
gains when integrated with various closed-source and open-source inference
models. This demonstrates the effectiveness of the MathFlow pipeline and its
compatibility to diverse inference frameworks. The FlowVerse benchmark and code
are available at https://github.com/MathFlow-zju/MathFlow.Summary
AI-Generated Summary