ChartMimic: Evaluierung der Cross-Modalen Schlussfolgerungsfähigkeit von LMM durch die Generierung von Diagrammen zu Code.
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
June 14, 2024
papers.authors: Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang
cs.AI
papers.abstract
Wir stellen einen neuen Leistungsmaßstab namens ChartMimic vor, der darauf abzielt, die visuell fundierten Codegenerierungsfähigkeiten großer multimodaler Modelle (LMMs) zu bewerten. ChartMimic nutzt informationsintensive visuelle Diagramme und textuelle Anweisungen als Eingaben, wodurch LMMs aufgefordert werden, den entsprechenden Code zur Diagrammdarstellung zu generieren. ChartMimic umfasst 1.000 von Menschen kuratierte (Abbildung, Anweisung, Code)-Triplets, die die authentischen Diagrammnutzungsfälle in wissenschaftlichen Arbeiten verschiedener Bereiche (z. B. Physik, Informatik, Wirtschaftswissenschaften usw.) repräsentieren. Diese Diagramme erstrecken sich über 18 reguläre Typen und 4 fortgeschrittene Typen, die sich in 191 Unterkategorien aufgliedern. Darüber hinaus schlagen wir mehrstufige Bewertungsmetriken vor, um eine automatische und gründliche Bewertung des Ausgabecodes und der gerenderten Diagramme bereitzustellen. Im Gegensatz zu bestehenden Codegenerierungs-Leistungsmaßstäben legt ChartMimic den Schwerpunkt darauf, die Fähigkeit von LMMs zu bewerten, eine Mischung kognitiver Fähigkeiten in Einklang zu bringen, die visuelles Verständnis, Codegenerierung und kreuzmodale Schlussfolgerungen umfassen. Die Bewertung von 3 proprietären Modellen und 11 Open-Weight-Modellen verdeutlicht die erheblichen Herausforderungen, die ChartMimic darstellt. Selbst die fortgeschrittenen Modelle GPT-4V und Claude-3-opus erreichen nur durchschnittliche Punktzahlen von 73,2 bzw. 53,7, was auf erheblichen Verbesserungsbedarf hinweist. Wir erwarten, dass ChartMimic die Entwicklung von LMMs inspirieren wird und so die Verfolgung der künstlichen allgemeinen Intelligenz vorantreibt.
English
We introduce a new benchmark, ChartMimic, aimed at assessing the
visually-grounded code generation capabilities of large multimodal models
(LMMs). ChartMimic utilizes information-intensive visual charts and textual
instructions as inputs, requiring LMMs to generate the corresponding code for
chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction,
code) triplets, which represent the authentic chart use cases found in
scientific papers across various domains(e.g., Physics, Computer Science,
Economics, etc). These charts span 18 regular types and 4 advanced types,
diversifying into 191 subcategories. Furthermore, we propose multi-level
evaluation metrics to provide an automatic and thorough assessment of the
output code and the rendered charts. Unlike existing code generation
benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to
harmonize a blend of cognitive capabilities, encompassing visual understanding,
code generation, and cross-modal reasoning. The evaluation of 3 proprietary
models and 11 open-weight models highlights the substantial challenges posed by
ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average
score of 73.2 and 53.7, respectively, indicating significant room for
improvement. We anticipate that ChartMimic will inspire the development of
LMMs, advancing the pursuit of artificial general intelligence.