We-Math: Достигает ли ваша большая мультимодальная модель математического рассуждения, аналогичного человеческому?We-Math: Does Your Large Multimodal Model Achieve Human-like
Mathematical Reasoning?
Визуальное математическое мышление, как фундаментальная способность к визуальному мышлению, получило широкое внимание от сообщества крупных мультимодальных моделей (LMMs). Существующие бенчмарки, такие как MathVista и MathVerse, больше сосредотачиваются на результативной производительности, но пренебрегают основными принципами в усвоении знаний и обобщении. Вдохновленные человекоподобным математическим мышлением, мы представляем WE-MATH, первый бенчмарк, специально разработанный для исследования принципов решения проблем за пределами конечной производительности. Мы тщательно собрали и классифицировали 6.5K визуальных математических задач, охватывающих 67 иерархических концепций знаний и пять уровней гранулярности знаний. Мы декомпозируем составные задачи на подзадачи в соответствии с требуемыми концепциями знаний и представляем новую четырехмерную метрику, а именно Недостаточное Знание (IK), Недостаточная Обобщенность (IG), Полное Овладение (CM) и Механическое Запоминание (RM), для иерархической оценки врожденных проблем в процессе рассуждения LMMs. С помощью WE-MATH мы проводим тщательную оценку существующих LMMs в визуальном математическом мышлении и раскрываем отрицательную корреляцию между шагами решения и производительностью по конкретным задачам. Мы подтверждаем, что проблему IK LMMs можно эффективно улучшить с помощью стратегий дополнения знаний. Более того, основной вызов для GPT-4o значительно перешел от IK к IG, утверждая его как первую LMM, продвигающуюся к стадии обобщения знаний. В отличие от этого, другие LMMs проявляют явную тенденцию к Механическому Запоминанию - они правильно решают составные задачи, включающие несколько концепций знаний, но не могут ответить на подзадачи. Мы предвкушаем, что WE-MATH откроет новые пути для продвижения в визуальном математическом мышлении для LMMs. Данные и код оценки WE-MATH доступны по адресу https://github.com/We-Math/We-Math.