ChartMimic: Valutazione delle Capacità di Ragionamento Cross-Modale degli LMM tramite Generazione da Grafici a Codice
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
June 14, 2024
Autori: Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang
cs.AI
Abstract
Introduciamo un nuovo benchmark, ChartMimic, progettato per valutare le capacità di generazione di codice basate su input visivi dei grandi modelli multimodali (LMM). ChartMimic utilizza grafici visivi ricchi di informazioni e istruzioni testuali come input, richiedendo agli LMM di generare il codice corrispondente per il rendering dei grafici. ChartMimic include 1.000 triplette (figura, istruzione, codice) curate manualmente, che rappresentano casi d'uso autentici di grafici presenti in articoli scientifici di vari ambiti (ad esempio, Fisica, Informatica, Economia, ecc.). Questi grafici coprono 18 tipi regolari e 4 tipi avanzati, diversificandosi in 191 sottocategorie. Inoltre, proponiamo metriche di valutazione multilivello per fornire una valutazione automatica e approfondita del codice generato e dei grafici renderizzati. A differenza degli attuali benchmark per la generazione di codice, ChartMimic si concentra sulla valutazione della capacità degli LMM di armonizzare un insieme di abilità cognitive, tra cui comprensione visiva, generazione di codice e ragionamento cross-modale. La valutazione di 3 modelli proprietari e 11 modelli open-weight evidenzia le sfide significative poste da ChartMimic. Anche i modelli avanzati come GPT-4V e Claude-3-opus raggiungono rispettivamente un punteggio medio di 73,2 e 53,7, indicando un ampio margine di miglioramento. Ci auguriamo che ChartMimic ispiri lo sviluppo degli LMM, contribuendo al progresso verso l'intelligenza artificiale generale.
English
We introduce a new benchmark, ChartMimic, aimed at assessing the
visually-grounded code generation capabilities of large multimodal models
(LMMs). ChartMimic utilizes information-intensive visual charts and textual
instructions as inputs, requiring LMMs to generate the corresponding code for
chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction,
code) triplets, which represent the authentic chart use cases found in
scientific papers across various domains(e.g., Physics, Computer Science,
Economics, etc). These charts span 18 regular types and 4 advanced types,
diversifying into 191 subcategories. Furthermore, we propose multi-level
evaluation metrics to provide an automatic and thorough assessment of the
output code and the rendered charts. Unlike existing code generation
benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to
harmonize a blend of cognitive capabilities, encompassing visual understanding,
code generation, and cross-modal reasoning. The evaluation of 3 proprietary
models and 11 open-weight models highlights the substantial challenges posed by
ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average
score of 73.2 and 53.7, respectively, indicating significant room for
improvement. We anticipate that ChartMimic will inspire the development of
LMMs, advancing the pursuit of artificial general intelligence.