We-Math: Достигает ли ваша большая мультимодальная модель математического рассуждения, аналогичного человеческому?

Аннотация

Визуальное математическое мышление, как фундаментальная способность к визуальному мышлению, получило широкое внимание от сообщества крупных мультимодальных моделей (LMMs). Существующие бенчмарки, такие как MathVista и MathVerse, больше сосредотачиваются на результативной производительности, но пренебрегают основными принципами в усвоении знаний и обобщении. Вдохновленные человекоподобным математическим мышлением, мы представляем WE-MATH, первый бенчмарк, специально разработанный для исследования принципов решения проблем за пределами конечной производительности. Мы тщательно собрали и классифицировали 6.5K визуальных математических задач, охватывающих 67 иерархических концепций знаний и пять уровней гранулярности знаний. Мы декомпозируем составные задачи на подзадачи в соответствии с требуемыми концепциями знаний и представляем новую четырехмерную метрику, а именно Недостаточное Знание (IK), Недостаточная Обобщенность (IG), Полное Овладение (CM) и Механическое Запоминание (RM), для иерархической оценки врожденных проблем в процессе рассуждения LMMs. С помощью WE-MATH мы проводим тщательную оценку существующих LMMs в визуальном математическом мышлении и раскрываем отрицательную корреляцию между шагами решения и производительностью по конкретным задачам. Мы подтверждаем, что проблему IK LMMs можно эффективно улучшить с помощью стратегий дополнения знаний. Более того, основной вызов для GPT-4o значительно перешел от IK к IG, утверждая его как первую LMM, продвигающуюся к стадии обобщения знаний. В отличие от этого, другие LMMs проявляют явную тенденцию к Механическому Запоминанию - они правильно решают составные задачи, включающие несколько концепций знаний, но не могут ответить на подзадачи. Мы предвкушаем, что WE-MATH откроет новые пути для продвижения в визуальном математическом мышлении для LMMs. Данные и код оценки WE-MATH доступны по адресу https://github.com/We-Math/We-Math.

English

Visual mathematical reasoning, as a fundamental visual reasoning ability, has received widespread attention from the Large Multimodal Models (LMMs) community. Existing benchmarks, such as MathVista and MathVerse, focus more on the result-oriented performance but neglect the underlying principles in knowledge acquisition and generalization. Inspired by human-like mathematical reasoning, we introduce WE-MATH, the first benchmark specifically designed to explore the problem-solving principles beyond end-to-end performance. We meticulously collect and categorize 6.5K visual math problems, spanning 67 hierarchical knowledge concepts and five layers of knowledge granularity. We decompose composite problems into sub-problems according to the required knowledge concepts and introduce a novel four-dimensional metric, namely Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery (CM), and Rote Memorization (RM), to hierarchically assess inherent issues in LMMs' reasoning process. With WE-MATH, we conduct a thorough evaluation of existing LMMs in visual mathematical reasoning and reveal a negative correlation between solving steps and problem-specific performance. We confirm the IK issue of LMMs can be effectively improved via knowledge augmentation strategies. More notably, the primary challenge of GPT-4o has significantly transitioned from IK to IG, establishing it as the first LMM advancing towards the knowledge generalization stage. In contrast, other LMMs exhibit a marked inclination towards Rote Memorization - they correctly solve composite problems involving multiple knowledge concepts yet fail to answer sub-problems. We anticipate that WE-MATH will open new pathways for advancements in visual mathematical reasoning for LMMs. The WE-MATH data and evaluation code are available at https://github.com/We-Math/We-Math.

We-Math: Достигает ли ваша большая мультимодальная модель математического рассуждения, аналогичного человеческому?

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

Аннотация

Support