MME-CoT: Het beoordelen van de keten van gedachten in grote multimodale modellen voor kwaliteit, robuustheid en efficiëntie van redeneren
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency
February 13, 2025
Auteurs: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li
cs.AI
Samenvatting
Het beantwoorden van vragen met Chain-of-Thought (CoT) heeft aanzienlijk bijgedragen aan de redeneervaardigheden van Large Language Models (LLMs), maar de impact op Large Multimodal Models (LMMs) ontbreekt nog steeds aan een systematische beoordeling en diepgaand onderzoek. In dit artikel introduceren we MME-CoT, een gespecialiseerde benchmark die de CoT redeneerprestaties van LMMs evalueert, met betrekking tot zes domeinen: wiskunde, wetenschap, OCR, logica, ruimtetijd en algemene scènes. Als de eerste uitgebreide studie op dit gebied stellen we een grondige evaluatiesuite voor die drie nieuwe metrieken omvat die de redeneerkwaliteit, robuustheid en efficiëntie op een gedetailleerd niveau beoordelen. Door gebruik te maken van zorgvuldig samengestelde hoogwaardige gegevens en een unieke evaluatiestrategie voeren we een diepgaande analyse uit van state-of-the-art LMMs, waarbij we verschillende belangrijke inzichten blootleggen: 1) Modellen met reflectiemechanismen tonen een superieure CoT-kwaliteit, waarbij Kimi k1.5 GPT-4o overtreft en de hoogste kwaliteitsresultaten laat zien; 2) CoT-aansporing leidt vaak tot een verslechtering van de prestaties van LMMs bij taken die sterk afhankelijk zijn van perceptie, wat wijst op mogelijk schadelijk overdenkend gedrag; en 3) Hoewel de CoT-kwaliteit hoog is, vertonen LMMs met reflectie aanzienlijke inefficiëntie in zowel normale respons als zelfcorrectiefasen. We hopen dat MME-CoT dient als basis voor het bevorderen van multimodaal redeneren in LMMs. Projectpagina: https://mmecot.github.io/
English
Answering questions with Chain-of-Thought (CoT) has significantly enhanced
the reasoning capabilities of Large Language Models (LLMs), yet its impact on
Large Multimodal Models (LMMs) still lacks a systematic assessment and in-depth
investigation. In this paper, we introduce MME-CoT, a specialized benchmark
evaluating the CoT reasoning performance of LMMs, spanning six domains: math,
science, OCR, logic, space-time, and general scenes. As the first comprehensive
study in this area, we propose a thorough evaluation suite incorporating three
novel metrics that assess the reasoning quality, robustness, and efficiency at
a fine-grained level. Leveraging curated high-quality data and a unique
evaluation strategy, we conduct an in-depth analysis of state-of-the-art LMMs,
uncovering several key insights: 1) Models with reflection mechanism
demonstrate a superior CoT quality, with Kimi k1.5 outperforming GPT-4o and
demonstrating the highest quality results; 2) CoT prompting often degrades LMM
performance on perception-heavy tasks, suggesting a potentially harmful
overthinking behavior; and 3) Although the CoT quality is high, LMMs with
reflection exhibit significant inefficiency in both normal response and
self-correction phases. We hope MME-CoT serves as a foundation for advancing
multimodal reasoning in LMMs. Project Page: https://mmecot.github.io/