ChartMimic: Evaluatie van de Cross-Modale Redeneervaardigheid van LMM's via Grafiek-naar-Code Generatie
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
June 14, 2024
Auteurs: Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang
cs.AI
Samenvatting
We introduceren een nieuwe benchmark, ChartMimic, gericht op het beoordelen van de visueel-gestuurde codegeneratiecapaciteiten van grote multimodale modellen (LMMs). ChartMimic maakt gebruik van informatie-intensieve visuele grafieken en tekstuele instructies als invoer, waarbij LMMs de bijbehorende code voor het renderen van grafieken moeten genereren. ChartMimic omvat 1.000 door mensen samengestelde (figuur, instructie, code) tripletten, die authentieke gebruiksvoorbeelden van grafieken vertegenwoordigen zoals gevonden in wetenschappelijke artikelen uit verschillende domeinen (bijv. Natuurkunde, Informatica, Economie, etc.). Deze grafieken beslaan 18 reguliere typen en 4 geavanceerde typen, onderverdeeld in 191 subcategorieën. Bovendien stellen we multi-level evaluatiemetrics voor om een automatische en grondige beoordeling te bieden van de gegenereerde code en de gerenderde grafieken. In tegenstelling tot bestaande benchmarks voor codegeneratie, legt ChartMimic de nadruk op het evalueren van de capaciteit van LMMs om een mix van cognitieve vaardigheden te harmoniseren, waaronder visueel begrip, codegeneratie en cross-modale redenering. De evaluatie van 3 propriëtaire modellen en 11 open-weight modellen onderstreept de aanzienlijke uitdagingen die ChartMimic met zich meebrengt. Zelfs de geavanceerde GPT-4V en Claude-3-opus behalen slechts een gemiddelde score van respectievelijk 73,2 en 53,7, wat wijst op aanzienlijke ruimte voor verbetering. We verwachten dat ChartMimic de ontwikkeling van LMMs zal inspireren, en zo de voortgang richting kunstmatige algemene intelligentie zal bevorderen.
English
We introduce a new benchmark, ChartMimic, aimed at assessing the
visually-grounded code generation capabilities of large multimodal models
(LMMs). ChartMimic utilizes information-intensive visual charts and textual
instructions as inputs, requiring LMMs to generate the corresponding code for
chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction,
code) triplets, which represent the authentic chart use cases found in
scientific papers across various domains(e.g., Physics, Computer Science,
Economics, etc). These charts span 18 regular types and 4 advanced types,
diversifying into 191 subcategories. Furthermore, we propose multi-level
evaluation metrics to provide an automatic and thorough assessment of the
output code and the rendered charts. Unlike existing code generation
benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to
harmonize a blend of cognitive capabilities, encompassing visual understanding,
code generation, and cross-modal reasoning. The evaluation of 3 proprietary
models and 11 open-weight models highlights the substantial challenges posed by
ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average
score of 73.2 and 53.7, respectively, indicating significant room for
improvement. We anticipate that ChartMimic will inspire the development of
LMMs, advancing the pursuit of artificial general intelligence.