We-Math: Seu Modelo Multimodal Grande Alcança Raciocínio Matemático Semelhante ao Humano?
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
July 1, 2024
Autores: Runqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang
cs.AI
Resumo
O raciocínio matemático visual, como uma habilidade fundamental de raciocínio visual, tem recebido ampla atenção da comunidade de Modelos Multimodais de Grande Escala (LMMs). Os benchmarks existentes, como MathVista e MathVerse, focam mais no desempenho orientado para resultados, mas negligenciam os princípios subjacentes na aquisição e generalização do conhecimento. Inspirados pelo raciocínio matemático semelhante ao humano, introduzimos o WE-MATH, o primeiro benchmark especificamente projetado para explorar os princípios de resolução de problemas além do desempenho de ponta a ponta. Coletamos e categorizamos meticulosamente 6,5 mil problemas matemáticos visuais, abrangendo 67 conceitos de conhecimento hierárquicos e cinco camadas de granularidade do conhecimento. Decomponemos problemas compostos em subproblemas de acordo com os conceitos de conhecimento necessários e introduzimos uma nova métrica quadridimensional, a saber, Conhecimento Insuficiente (IK), Generalização Inadequada (IG), Domínio Completo (CM) e Memorização Mecânica (RM), para avaliar hierarquicamente questões inerentes no processo de raciocínio dos LMMs. Com o WE-MATH, realizamos uma avaliação minuciosa dos LMMs existentes no raciocínio matemático visual e revelamos uma correlação negativa entre etapas de resolução e desempenho específico do problema. Confirmamos que a questão de IK dos LMMs pode ser efetivamente melhorada por meio de estratégias de aumento de conhecimento. Mais notavelmente, o desafio principal do GPT-4o mudou significativamente de IK para IG, estabelecendo-o como o primeiro LMM avançando em direção à fase de generalização do conhecimento. Em contraste, outros LMMs exibem uma inclinação marcante para a Memorização Mecânica - eles resolvem corretamente problemas compostos envolvendo múltiplos conceitos de conhecimento, mas falham em responder aos subproblemas. Antecipamos que o WE-MATH abrirá novos caminhos para avanços no raciocínio matemático visual para LMMs. Os dados e código de avaliação do WE-MATH estão disponíveis em https://github.com/We-Math/We-Math.
English
Visual mathematical reasoning, as a fundamental visual reasoning ability, has
received widespread attention from the Large Multimodal Models (LMMs)
community. Existing benchmarks, such as MathVista and MathVerse, focus more on
the result-oriented performance but neglect the underlying principles in
knowledge acquisition and generalization. Inspired by human-like mathematical
reasoning, we introduce WE-MATH, the first benchmark specifically designed to
explore the problem-solving principles beyond end-to-end performance. We
meticulously collect and categorize 6.5K visual math problems, spanning 67
hierarchical knowledge concepts and five layers of knowledge granularity. We
decompose composite problems into sub-problems according to the required
knowledge concepts and introduce a novel four-dimensional metric, namely
Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery
(CM), and Rote Memorization (RM), to hierarchically assess inherent issues in
LMMs' reasoning process. With WE-MATH, we conduct a thorough evaluation of
existing LMMs in visual mathematical reasoning and reveal a negative
correlation between solving steps and problem-specific performance. We confirm
the IK issue of LMMs can be effectively improved via knowledge augmentation
strategies. More notably, the primary challenge of GPT-4o has significantly
transitioned from IK to IG, establishing it as the first LMM advancing towards
the knowledge generalization stage. In contrast, other LMMs exhibit a marked
inclination towards Rote Memorization - they correctly solve composite problems
involving multiple knowledge concepts yet fail to answer sub-problems. We
anticipate that WE-MATH will open new pathways for advancements in visual
mathematical reasoning for LMMs. The WE-MATH data and evaluation code are
available at https://github.com/We-Math/We-Math.