ChatPaper.aiChatPaper

We-Math: 당신의 대규모 멀티모달 모델은 인간 수준의 수학적 추론을 달성했는가?

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

July 1, 2024
저자: Runqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang
cs.AI

초록

시각적 수학적 추론은 기본적인 시각적 추론 능력으로서, 대규모 멀티모달 모델(LMMs) 커뮤니티로부터 폭넓은 관심을 받고 있습니다. MathVista와 MathVerse와 같은 기존 벤치마크는 결과 중심의 성능에 더 초점을 맞추고 있지만, 지식 습득과 일반화의 근본적인 원리를 간과하고 있습니다. 인간과 유사한 수학적 추론에서 영감을 받아, 우리는 종단간 성능을 넘어 문제 해결 원리를 탐구하기 위해 특별히 설계된 첫 번째 벤치마크인 WE-MATH를 소개합니다. 우리는 67개의 계층적 지식 개념과 다섯 가지 지식 세분화 수준에 걸친 6.5K개의 시각적 수학 문제를 신중하게 수집하고 분류했습니다. 복합 문제를 필요한 지식 개념에 따라 하위 문제로 분해하고, LMMs의 추론 과정에서 내재된 문제를 계층적으로 평가하기 위해 새로운 4차원 지표, 즉 불충분한 지식(IK), 부적절한 일반화(IG), 완전한 숙달(CM), 그리고 기계적 암기(RM)를 도입했습니다. WE-MATH를 통해 우리는 기존 LMMs의 시각적 수학적 추론을 철저히 평가하고, 문제 해결 단계와 문제 특정 성능 간의 부정적 상관관계를 밝혀냈습니다. 우리는 LMMs의 IK 문제가 지식 증강 전략을 통해 효과적으로 개선될 수 있음을 확인했습니다. 더욱 주목할 만한 점은, GPT-4o의 주요 도전 과제가 IK에서 IG로 크게 전환되어, 지식 일반화 단계로 나아가는 첫 번째 LMM으로 자리매김했다는 것입니다. 반면, 다른 LMMs는 기계적 암기에 뚜렷한 경향을 보였습니다. 이들은 여러 지식 개념을 포함하는 복합 문제는 올바르게 해결하지만, 하위 문제에는 답하지 못했습니다. 우리는 WE-MATH가 LMMs의 시각적 수학적 추론 발전을 위한 새로운 길을 열어줄 것으로 기대합니다. WE-MATH 데이터와 평가 코드는 https://github.com/We-Math/We-Math에서 확인할 수 있습니다.
English
Visual mathematical reasoning, as a fundamental visual reasoning ability, has received widespread attention from the Large Multimodal Models (LMMs) community. Existing benchmarks, such as MathVista and MathVerse, focus more on the result-oriented performance but neglect the underlying principles in knowledge acquisition and generalization. Inspired by human-like mathematical reasoning, we introduce WE-MATH, the first benchmark specifically designed to explore the problem-solving principles beyond end-to-end performance. We meticulously collect and categorize 6.5K visual math problems, spanning 67 hierarchical knowledge concepts and five layers of knowledge granularity. We decompose composite problems into sub-problems according to the required knowledge concepts and introduce a novel four-dimensional metric, namely Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery (CM), and Rote Memorization (RM), to hierarchically assess inherent issues in LMMs' reasoning process. With WE-MATH, we conduct a thorough evaluation of existing LMMs in visual mathematical reasoning and reveal a negative correlation between solving steps and problem-specific performance. We confirm the IK issue of LMMs can be effectively improved via knowledge augmentation strategies. More notably, the primary challenge of GPT-4o has significantly transitioned from IK to IG, establishing it as the first LMM advancing towards the knowledge generalization stage. In contrast, other LMMs exhibit a marked inclination towards Rote Memorization - they correctly solve composite problems involving multiple knowledge concepts yet fail to answer sub-problems. We anticipate that WE-MATH will open new pathways for advancements in visual mathematical reasoning for LMMs. The WE-MATH data and evaluation code are available at https://github.com/We-Math/We-Math.

Summary

AI-Generated Summary

PDF819November 28, 2024