ChatPaper.aiChatPaper

We-Math: Erreicht Ihr großes multimodales Modell menschenähnliches mathematisches Denken?

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

July 1, 2024
Autoren: Runqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang
cs.AI

Zusammenfassung

Die visuelle mathematische Argumentation, als grundlegende visuelle Argumentationsfähigkeit, hat in der Gemeinschaft der Großen Multimodalen Modelle (LMMs) weitreichende Aufmerksamkeit erhalten. Bestehende Benchmarks wie MathVista und MathVerse konzentrieren sich mehr auf die ergebnisorientierte Leistung, vernachlässigen jedoch die zugrunde liegenden Prinzipien beim Wissenserwerb und der Verallgemeinerung. Inspiriert von menschenähnlicher mathematischer Argumentation führen wir WE-MATH ein, den ersten Benchmark, der speziell entwickelt wurde, um die Problemlösungsprinzipien jenseits der End-to-End-Leistung zu erforschen. Wir sammeln und kategorisieren sorgfältig 6,5K visuelle Mathematikprobleme, die 67 hierarchische Wissenskonzepte und fünf Ebenen der Wissensgranularität umfassen. Wir zerlegen zusammengesetzte Probleme in Teilprobleme entsprechend der erforderlichen Wissenskonzepte und führen eine neuartige vierdimensionale Metrik ein, nämlich Unzureichendes Wissen (IK), Unzureichende Verallgemeinerung (IG), Vollständige Beherrschung (CM) und Rote Memorierung (RM), um hierarchisch die inhärenten Probleme im Argumentationsprozess von LMMs zu bewerten. Mit WE-MATH führen wir eine gründliche Bewertung bestehender LMMs in der visuellen mathematischen Argumentation durch und zeigen eine negative Korrelation zwischen Lösungsschritten und problembezogener Leistung auf. Wir bestätigen, dass das IK-Problem von LMMs durch Wissensvergrößerungsstrategien effektiv verbessert werden kann. Besonders bemerkenswert ist, dass die Hauptherausforderung von GPT-4o signifikant von IK auf IG übergegangen ist, was es zum ersten LMM macht, das sich dem Wissensverallgemeinerungsstadium nähert. Im Gegensatz dazu zeigen andere LMMs eine deutliche Neigung zur Roten Memorierung - sie lösen korrekt zusammengesetzte Probleme, die mehrere Wissenskonzepte umfassen, können jedoch keine Teilprobleme beantworten. Wir erwarten, dass WE-MATH neue Wege für Fortschritte in der visuellen mathematischen Argumentation für LMMs eröffnen wird. Die WE-MATH-Daten und Bewertungscode sind unter https://github.com/We-Math/We-Math verfügbar.
English
Visual mathematical reasoning, as a fundamental visual reasoning ability, has received widespread attention from the Large Multimodal Models (LMMs) community. Existing benchmarks, such as MathVista and MathVerse, focus more on the result-oriented performance but neglect the underlying principles in knowledge acquisition and generalization. Inspired by human-like mathematical reasoning, we introduce WE-MATH, the first benchmark specifically designed to explore the problem-solving principles beyond end-to-end performance. We meticulously collect and categorize 6.5K visual math problems, spanning 67 hierarchical knowledge concepts and five layers of knowledge granularity. We decompose composite problems into sub-problems according to the required knowledge concepts and introduce a novel four-dimensional metric, namely Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery (CM), and Rote Memorization (RM), to hierarchically assess inherent issues in LMMs' reasoning process. With WE-MATH, we conduct a thorough evaluation of existing LMMs in visual mathematical reasoning and reveal a negative correlation between solving steps and problem-specific performance. We confirm the IK issue of LMMs can be effectively improved via knowledge augmentation strategies. More notably, the primary challenge of GPT-4o has significantly transitioned from IK to IG, establishing it as the first LMM advancing towards the knowledge generalization stage. In contrast, other LMMs exhibit a marked inclination towards Rote Memorization - they correctly solve composite problems involving multiple knowledge concepts yet fail to answer sub-problems. We anticipate that WE-MATH will open new pathways for advancements in visual mathematical reasoning for LMMs. The WE-MATH data and evaluation code are available at https://github.com/We-Math/We-Math.

Summary

AI-Generated Summary

PDF819November 28, 2024