ChatPaper.aiChatPaper

MathFlow: Het verbeteren van de perceptuele flow van MLLMs voor visuele wiskundige problemen

MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

March 19, 2025
Auteurs: Felix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang
cs.AI

Samenvatting

Ondanks indrukwekkende prestaties op diverse taken, hebben Multimodale Grote Taalmodellen (MLLMs) hun potentieel in visueel wiskundig probleemoplossen nog niet volledig kunnen aantonen, met name in het nauwkeurig waarnemen en interpreteren van diagrammen. Geïnspireerd door typische processen van mensen, stellen we de hypothese dat de perceptiecapaciteiten om betekenisvolle informatie uit diagrammen te extraheren cruciaal zijn, aangezien dit een directe invloed heeft op de daaropvolgende redeneerprocessen. Om deze hypothese te valideren, hebben we FlowVerse ontwikkeld, een uitgebreide benchmark die alle informatie die tijdens het probleemoplossen wordt gebruikt, categoriseert in vier componenten, die vervolgens worden gecombineerd tot zes probleemversies voor evaluatie. Onze voorlopige resultaten op FlowVerse onthullen dat bestaande MLLMs aanzienlijke beperkingen vertonen bij het extraheren van essentiële informatie en redeneereigenschappen uit diagrammen en bij het uitvoeren van complexe redeneringen op basis van deze visuele inputs. Als reactie hierop introduceren we MathFlow, een modulaire probleemoplossingspipeline die perceptie en redenering ontkoppelt in afzonderlijke fasen, waardoor elk afzonderlijk wordt geoptimaliseerd. Gezien de waargenomen perceptuele beperkingen in huidige MLLMs, hebben we MathFlow-P-7B getraind als een toegewijd perceptiemodel. Experimentele resultaten tonen aan dat MathFlow-P-7B aanzienlijke prestatieverbeteringen oplevert wanneer het wordt geïntegreerd met verschillende closed-source en open-source redeneermodellen. Dit demonstreert de effectiviteit van de MathFlow-pipeline en de compatibiliteit ervan met diverse redeneerkaders. De FlowVerse-benchmark en code zijn beschikbaar op https://github.com/MathFlow-zju/MathFlow.
English
Despite impressive performance across diverse tasks, Multimodal Large Language Models (MLLMs) have yet to fully demonstrate their potential in visual mathematical problem-solving, particularly in accurately perceiving and interpreting diagrams. Inspired by typical processes of humans, we hypothesize that the perception capabilities to extract meaningful information from diagrams is crucial, as it directly impacts subsequent inference processes. To validate this hypothesis, we developed FlowVerse, a comprehensive benchmark that categorizes all information used during problem-solving into four components, which are then combined into six problem versions for evaluation. Our preliminary results on FlowVerse reveal that existing MLLMs exhibit substantial limitations when extracting essential information and reasoned property from diagrams and performing complex reasoning based on these visual inputs. In response, we introduce MathFlow, a modular problem-solving pipeline that decouples perception and inference into distinct stages, thereby optimizing each independently. Given the perceptual limitations observed in current MLLMs, we trained MathFlow-P-7B as a dedicated perception model. Experimental results indicate that MathFlow-P-7B yields substantial performance gains when integrated with various closed-source and open-source inference models. This demonstrates the effectiveness of the MathFlow pipeline and its compatibility to diverse inference frameworks. The FlowVerse benchmark and code are available at https://github.com/MathFlow-zju/MathFlow.

Summary

AI-Generated Summary

PDF143March 24, 2025