ChartMimic: Evaluatie van de Cross-Modale Redeneervaardigheid van LMM's via Grafiek-naar-Code Generatie

Samenvatting

We introduceren een nieuwe benchmark, ChartMimic, gericht op het beoordelen van de visueel-gestuurde codegeneratiecapaciteiten van grote multimodale modellen (LMMs). ChartMimic maakt gebruik van informatie-intensieve visuele grafieken en tekstuele instructies als invoer, waarbij LMMs de bijbehorende code voor het renderen van grafieken moeten genereren. ChartMimic omvat 1.000 door mensen samengestelde (figuur, instructie, code) tripletten, die authentieke gebruiksvoorbeelden van grafieken vertegenwoordigen zoals gevonden in wetenschappelijke artikelen uit verschillende domeinen (bijv. Natuurkunde, Informatica, Economie, etc.). Deze grafieken beslaan 18 reguliere typen en 4 geavanceerde typen, onderverdeeld in 191 subcategorieën. Bovendien stellen we multi-level evaluatiemetrics voor om een automatische en grondige beoordeling te bieden van de gegenereerde code en de gerenderde grafieken. In tegenstelling tot bestaande benchmarks voor codegeneratie, legt ChartMimic de nadruk op het evalueren van de capaciteit van LMMs om een mix van cognitieve vaardigheden te harmoniseren, waaronder visueel begrip, codegeneratie en cross-modale redenering. De evaluatie van 3 propriëtaire modellen en 11 open-weight modellen onderstreept de aanzienlijke uitdagingen die ChartMimic met zich meebrengt. Zelfs de geavanceerde GPT-4V en Claude-3-opus behalen slechts een gemiddelde score van respectievelijk 73,2 en 53,7, wat wijst op aanzienlijke ruimte voor verbetering. We verwachten dat ChartMimic de ontwikkeling van LMMs zal inspireren, en zo de voortgang richting kunstmatige algemene intelligentie zal bevorderen.

English

We introduce a new benchmark, ChartMimic, aimed at assessing the visually-grounded code generation capabilities of large multimodal models (LMMs). ChartMimic utilizes information-intensive visual charts and textual instructions as inputs, requiring LMMs to generate the corresponding code for chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction, code) triplets, which represent the authentic chart use cases found in scientific papers across various domains(e.g., Physics, Computer Science, Economics, etc). These charts span 18 regular types and 4 advanced types, diversifying into 191 subcategories. Furthermore, we propose multi-level evaluation metrics to provide an automatic and thorough assessment of the output code and the rendered charts. Unlike existing code generation benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to harmonize a blend of cognitive capabilities, encompassing visual understanding, code generation, and cross-modal reasoning. The evaluation of 3 proprietary models and 11 open-weight models highlights the substantial challenges posed by ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average score of 73.2 and 53.7, respectively, indicating significant room for improvement. We anticipate that ChartMimic will inspire the development of LMMs, advancing the pursuit of artificial general intelligence.

ChartMimic: Evaluatie van de Cross-Modale Redeneervaardigheid van LMM's via Grafiek-naar-Code Generatie

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Samenvatting

Support