ChatPaper.aiChatPaper

MathFlow: Mejorando el Flujo Perceptivo de los MLLM para Problemas Matemáticos Visuales

MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

March 19, 2025
Autores: Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
cs.AI

Resumen

A pesar de su impresionante rendimiento en diversas tareas, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) aún no han demostrado plenamente su potencial en la resolución de problemas matemáticos visuales, particularmente en la percepción e interpretación precisa de diagramas. Inspirados por los procesos típicos de los humanos, planteamos la hipótesis de que las capacidades de percepción para extraer información significativa de los diagramas son cruciales, ya que impactan directamente en los procesos de inferencia posteriores. Para validar esta hipótesis, desarrollamos FlowVerse, un benchmark integral que categoriza toda la información utilizada durante la resolución de problemas en cuatro componentes, los cuales se combinan en seis versiones de problemas para su evaluación. Nuestros resultados preliminares en FlowVerse revelan que los MLLMs existentes presentan limitaciones significativas al extraer información esencial y propiedades razonadas de los diagramas, así como al realizar razonamientos complejos basados en estas entradas visuales. En respuesta, introducimos MathFlow, una canalización modular de resolución de problemas que desacopla la percepción y la inferencia en etapas distintas, optimizando cada una de manera independiente. Dadas las limitaciones perceptivas observadas en los MLLMs actuales, entrenamos MathFlow-P-7B como un modelo de percepción dedicado. Los resultados experimentales indican que MathFlow-P-7B produce mejoras sustanciales en el rendimiento cuando se integra con diversos modelos de inferencia, tanto de código cerrado como abierto. Esto demuestra la efectividad de la canalización MathFlow y su compatibilidad con diversos marcos de inferencia. El benchmark FlowVerse y el código están disponibles en https://github.com/MathFlow-zju/MathFlow.
English
Despite impressive performance across diverse tasks, Multimodal Large Language Models (MLLMs) have yet to fully demonstrate their potential in visual mathematical problem-solving, particularly in accurately perceiving and interpreting diagrams. Inspired by typical processes of humans, we hypothesize that the perception capabilities to extract meaningful information from diagrams is crucial, as it directly impacts subsequent inference processes. To validate this hypothesis, we developed FlowVerse, a comprehensive benchmark that categorizes all information used during problem-solving into four components, which are then combined into six problem versions for evaluation. Our preliminary results on FlowVerse reveal that existing MLLMs exhibit substantial limitations when extracting essential information and reasoned property from diagrams and performing complex reasoning based on these visual inputs. In response, we introduce MathFlow, a modular problem-solving pipeline that decouples perception and inference into distinct stages, thereby optimizing each independently. Given the perceptual limitations observed in current MLLMs, we trained MathFlow-P-7B as a dedicated perception model. Experimental results indicate that MathFlow-P-7B yields substantial performance gains when integrated with various closed-source and open-source inference models. This demonstrates the effectiveness of the MathFlow pipeline and its compatibility to diverse inference frameworks. The FlowVerse benchmark and code are available at https://github.com/MathFlow-zju/MathFlow.

Summary

AI-Generated Summary

PDF143March 24, 2025