ChartMimic: Avaliando a Capacidade de Raciocínio Transmodal de LMMs por meio da Geração de Gráfico-para-Código
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
June 14, 2024
Autores: Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang
cs.AI
Resumo
Apresentamos um novo benchmark, o ChartMimic, destinado a avaliar as capacidades de geração de código visualmente fundamentado em modelos multimodais de grande escala (LMMs). O ChartMimic utiliza gráficos visuais ricos em informação e instruções textuais como entradas, exigindo que os LMMs gerem o código correspondente para a renderização dos gráficos. O ChartMimic inclui 1.000 triplas (figura, instrução, código) curadas por humanos, que representam os casos de uso autênticos de gráficos encontrados em artigos científicos de diversas áreas (por exemplo, Física, Ciência da Computação, Economia, etc.). Esses gráficos abrangem 18 tipos regulares e 4 tipos avançados, diversificando-se em 191 subcategorias. Além disso, propomos métricas de avaliação multiníveis para fornecer uma avaliação automática e abrangente do código gerado e dos gráficos renderizados. Diferentemente dos benchmarks existentes de geração de código, o ChartMimic enfatiza a avaliação da capacidade dos LMMs de harmonizar uma mistura de habilidades cognitivas, abrangendo compreensão visual, geração de código e raciocínio multimodal. A avaliação de 3 modelos proprietários e 11 modelos de código aberto destaca os desafios substanciais apresentados pelo ChartMimic. Mesmo os modelos avançados GPT-4V e Claude-3-opus alcançam apenas uma pontuação média de 73,2 e 53,7, respectivamente, indicando um espaço significativo para melhoria. Antecipamos que o ChartMimic inspirará o desenvolvimento de LMMs, avançando a busca pela inteligência artificial geral.
English
We introduce a new benchmark, ChartMimic, aimed at assessing the
visually-grounded code generation capabilities of large multimodal models
(LMMs). ChartMimic utilizes information-intensive visual charts and textual
instructions as inputs, requiring LMMs to generate the corresponding code for
chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction,
code) triplets, which represent the authentic chart use cases found in
scientific papers across various domains(e.g., Physics, Computer Science,
Economics, etc). These charts span 18 regular types and 4 advanced types,
diversifying into 191 subcategories. Furthermore, we propose multi-level
evaluation metrics to provide an automatic and thorough assessment of the
output code and the rendered charts. Unlike existing code generation
benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to
harmonize a blend of cognitive capabilities, encompassing visual understanding,
code generation, and cross-modal reasoning. The evaluation of 3 proprietary
models and 11 open-weight models highlights the substantial challenges posed by
ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average
score of 73.2 and 53.7, respectively, indicating significant room for
improvement. We anticipate that ChartMimic will inspire the development of
LMMs, advancing the pursuit of artificial general intelligence.