ChatPaper.aiChatPaper

MathFlow: Aprimorando o Fluxo Perceptivo de MLLMs para Problemas Matemáticos Visuais

MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

March 19, 2025
Autores: Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
cs.AI

Resumo

Apesar do desempenho impressionante em diversas tarefas, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ainda não demonstraram plenamente seu potencial na resolução de problemas matemáticos visuais, particularmente na percepção e interpretação precisa de diagramas. Inspirados pelos processos típicos dos seres humanos, levantamos a hipótese de que as capacidades de percepção para extrair informações significativas de diagramas são cruciais, pois impactam diretamente os processos subsequentes de inferência. Para validar essa hipótese, desenvolvemos o FlowVerse, um benchmark abrangente que categoriza todas as informações utilizadas durante a resolução de problemas em quatro componentes, que são então combinados em seis versões de problemas para avaliação. Nossos resultados preliminares no FlowVerse revelam que os MLLMs existentes apresentam limitações significativas ao extrair informações essenciais e propriedades raciocinadas de diagramas e ao realizar raciocínios complexos com base nessas entradas visuais. Em resposta, introduzimos o MathFlow, um pipeline modular de resolução de problemas que desacopla a percepção e a inferência em estágios distintos, otimizando cada um de forma independente. Dadas as limitações perceptivas observadas nos MLLMs atuais, treinamos o MathFlow-P-7B como um modelo de percepção dedicado. Os resultados experimentais indicam que o MathFlow-P-7B proporciona ganhos substanciais de desempenho quando integrado a diversos modelos de inferência, tanto de código fechado quanto de código aberto. Isso demonstra a eficácia do pipeline MathFlow e sua compatibilidade com diversos frameworks de inferência. O benchmark FlowVerse e o código estão disponíveis em https://github.com/MathFlow-zju/MathFlow.
English
Despite impressive performance across diverse tasks, Multimodal Large Language Models (MLLMs) have yet to fully demonstrate their potential in visual mathematical problem-solving, particularly in accurately perceiving and interpreting diagrams. Inspired by typical processes of humans, we hypothesize that the perception capabilities to extract meaningful information from diagrams is crucial, as it directly impacts subsequent inference processes. To validate this hypothesis, we developed FlowVerse, a comprehensive benchmark that categorizes all information used during problem-solving into four components, which are then combined into six problem versions for evaluation. Our preliminary results on FlowVerse reveal that existing MLLMs exhibit substantial limitations when extracting essential information and reasoned property from diagrams and performing complex reasoning based on these visual inputs. In response, we introduce MathFlow, a modular problem-solving pipeline that decouples perception and inference into distinct stages, thereby optimizing each independently. Given the perceptual limitations observed in current MLLMs, we trained MathFlow-P-7B as a dedicated perception model. Experimental results indicate that MathFlow-P-7B yields substantial performance gains when integrated with various closed-source and open-source inference models. This demonstrates the effectiveness of the MathFlow pipeline and its compatibility to diverse inference frameworks. The FlowVerse benchmark and code are available at https://github.com/MathFlow-zju/MathFlow.

Summary

AI-Generated Summary

PDF143March 24, 2025