ChatPaper.aiChatPaper

MathFlow: Улучшение перцептивного потока MLLM для визуальных математических задач

MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

March 19, 2025
Авторы: Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
cs.AI

Аннотация

Несмотря на впечатляющие результаты в решении разнообразных задач, мультимодальные большие языковые модели (MLLMs) пока не полностью раскрыли свой потенциал в решении визуальных математических задач, особенно в точном восприятии и интерпретации диаграмм. Вдохновленные типичными процессами, используемыми людьми, мы предполагаем, что способность извлекать значимую информацию из диаграмм имеет решающее значение, так как она напрямую влияет на последующие процессы логического вывода. Чтобы проверить эту гипотезу, мы разработали FlowVerse — комплексный бенчмарк, который классифицирует всю информацию, используемую при решении задач, на четыре компонента, которые затем объединяются в шесть версий задач для оценки. Наши предварительные результаты на FlowVerse показывают, что существующие MLLMs демонстрируют существенные ограничения в извлечении ключевой информации и логических свойств из диаграмм, а также в выполнении сложных рассуждений на основе этих визуальных данных. В ответ на это мы представляем MathFlow — модульный конвейер решения задач, который разделяет восприятие и логический вывод на отдельные этапы, оптимизируя каждый из них независимо. Учитывая наблюдаемые ограничения в восприятии у современных MLLMs, мы обучили MathFlow-P-7B как специализированную модель восприятия. Экспериментальные результаты показывают, что MathFlow-P-7B обеспечивает значительное улучшение производительности при интеграции с различными закрытыми и открытыми моделями логического вывода. Это демонстрирует эффективность конвейера MathFlow и его совместимость с разнообразными фреймворками логического вывода. Бенчмарк FlowVerse и код доступны по адресу https://github.com/MathFlow-zju/MathFlow.
English
Despite impressive performance across diverse tasks, Multimodal Large Language Models (MLLMs) have yet to fully demonstrate their potential in visual mathematical problem-solving, particularly in accurately perceiving and interpreting diagrams. Inspired by typical processes of humans, we hypothesize that the perception capabilities to extract meaningful information from diagrams is crucial, as it directly impacts subsequent inference processes. To validate this hypothesis, we developed FlowVerse, a comprehensive benchmark that categorizes all information used during problem-solving into four components, which are then combined into six problem versions for evaluation. Our preliminary results on FlowVerse reveal that existing MLLMs exhibit substantial limitations when extracting essential information and reasoned property from diagrams and performing complex reasoning based on these visual inputs. In response, we introduce MathFlow, a modular problem-solving pipeline that decouples perception and inference into distinct stages, thereby optimizing each independently. Given the perceptual limitations observed in current MLLMs, we trained MathFlow-P-7B as a dedicated perception model. Experimental results indicate that MathFlow-P-7B yields substantial performance gains when integrated with various closed-source and open-source inference models. This demonstrates the effectiveness of the MathFlow pipeline and its compatibility to diverse inference frameworks. The FlowVerse benchmark and code are available at https://github.com/MathFlow-zju/MathFlow.

Summary

AI-Generated Summary

PDF143March 24, 2025