We-Math: Erreicht Ihr großes multimodales Modell menschenähnliches mathematisches Denken?We-Math: Does Your Large Multimodal Model Achieve Human-like
Mathematical Reasoning?
Die visuelle mathematische Argumentation, als grundlegende visuelle Argumentationsfähigkeit, hat in der Gemeinschaft der Großen Multimodalen Modelle (LMMs) weitreichende Aufmerksamkeit erhalten. Bestehende Benchmarks wie MathVista und MathVerse konzentrieren sich mehr auf die ergebnisorientierte Leistung, vernachlässigen jedoch die zugrunde liegenden Prinzipien beim Wissenserwerb und der Verallgemeinerung. Inspiriert von menschenähnlicher mathematischer Argumentation führen wir WE-MATH ein, den ersten Benchmark, der speziell entwickelt wurde, um die Problemlösungsprinzipien jenseits der End-to-End-Leistung zu erforschen. Wir sammeln und kategorisieren sorgfältig 6,5K visuelle Mathematikprobleme, die 67 hierarchische Wissenskonzepte und fünf Ebenen der Wissensgranularität umfassen. Wir zerlegen zusammengesetzte Probleme in Teilprobleme entsprechend der erforderlichen Wissenskonzepte und führen eine neuartige vierdimensionale Metrik ein, nämlich Unzureichendes Wissen (IK), Unzureichende Verallgemeinerung (IG), Vollständige Beherrschung (CM) und Rote Memorierung (RM), um hierarchisch die inhärenten Probleme im Argumentationsprozess von LMMs zu bewerten. Mit WE-MATH führen wir eine gründliche Bewertung bestehender LMMs in der visuellen mathematischen Argumentation durch und zeigen eine negative Korrelation zwischen Lösungsschritten und problembezogener Leistung auf. Wir bestätigen, dass das IK-Problem von LMMs durch Wissensvergrößerungsstrategien effektiv verbessert werden kann. Besonders bemerkenswert ist, dass die Hauptherausforderung von GPT-4o signifikant von IK auf IG übergegangen ist, was es zum ersten LMM macht, das sich dem Wissensverallgemeinerungsstadium nähert. Im Gegensatz dazu zeigen andere LMMs eine deutliche Neigung zur Roten Memorierung - sie lösen korrekt zusammengesetzte Probleme, die mehrere Wissenskonzepte umfassen, können jedoch keine Teilprobleme beantworten. Wir erwarten, dass WE-MATH neue Wege für Fortschritte in der visuellen mathematischen Argumentation für LMMs eröffnen wird. Die WE-MATH-Daten und Bewertungscode sind unter https://github.com/We-Math/We-Math verfügbar.