MathFlow: Улучшение перцептивного потока MLLM для визуальных математических задач
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems
March 19, 2025
Авторы: Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
cs.AI
Аннотация
Несмотря на впечатляющие результаты в решении разнообразных задач, мультимодальные большие языковые модели (MLLMs) пока не полностью раскрыли свой потенциал в решении визуальных математических задач, особенно в точном восприятии и интерпретации диаграмм. Вдохновленные типичными процессами, используемыми людьми, мы предполагаем, что способность извлекать значимую информацию из диаграмм имеет решающее значение, так как она напрямую влияет на последующие процессы логического вывода. Чтобы проверить эту гипотезу, мы разработали FlowVerse — комплексный бенчмарк, который классифицирует всю информацию, используемую при решении задач, на четыре компонента, которые затем объединяются в шесть версий задач для оценки. Наши предварительные результаты на FlowVerse показывают, что существующие MLLMs демонстрируют существенные ограничения в извлечении ключевой информации и логических свойств из диаграмм, а также в выполнении сложных рассуждений на основе этих визуальных данных. В ответ на это мы представляем MathFlow — модульный конвейер решения задач, который разделяет восприятие и логический вывод на отдельные этапы, оптимизируя каждый из них независимо. Учитывая наблюдаемые ограничения в восприятии у современных MLLMs, мы обучили MathFlow-P-7B как специализированную модель восприятия. Экспериментальные результаты показывают, что MathFlow-P-7B обеспечивает значительное улучшение производительности при интеграции с различными закрытыми и открытыми моделями логического вывода. Это демонстрирует эффективность конвейера MathFlow и его совместимость с разнообразными фреймворками логического вывода. Бенчмарк FlowVerse и код доступны по адресу https://github.com/MathFlow-zju/MathFlow.
English
Despite impressive performance across diverse tasks, Multimodal Large
Language Models (MLLMs) have yet to fully demonstrate their potential in visual
mathematical problem-solving, particularly in accurately perceiving and
interpreting diagrams. Inspired by typical processes of humans, we hypothesize
that the perception capabilities to extract meaningful information from
diagrams is crucial, as it directly impacts subsequent inference processes. To
validate this hypothesis, we developed FlowVerse, a comprehensive benchmark
that categorizes all information used during problem-solving into four
components, which are then combined into six problem versions for evaluation.
Our preliminary results on FlowVerse reveal that existing MLLMs exhibit
substantial limitations when extracting essential information and reasoned
property from diagrams and performing complex reasoning based on these visual
inputs. In response, we introduce MathFlow, a modular problem-solving pipeline
that decouples perception and inference into distinct stages, thereby
optimizing each independently. Given the perceptual limitations observed in
current MLLMs, we trained MathFlow-P-7B as a dedicated perception model.
Experimental results indicate that MathFlow-P-7B yields substantial performance
gains when integrated with various closed-source and open-source inference
models. This demonstrates the effectiveness of the MathFlow pipeline and its
compatibility to diverse inference frameworks. The FlowVerse benchmark and code
are available at https://github.com/MathFlow-zju/MathFlow.Summary
AI-Generated Summary