ChartMimic: Evaluación de la Capacidad de Razonamiento Intermodal de los LMM mediante la Generación de Código a partir de Gráficos
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
June 14, 2024
Autores: Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang
cs.AI
Resumen
Presentamos un nuevo benchmark, ChartMimic, diseñado para evaluar las capacidades de generación de código basado en aspectos visuales de los modelos multimodales grandes (LMMs). ChartMimic utiliza gráficos visuales ricos en información e instrucciones textuales como entradas, requiriendo que los LMMs generen el código correspondiente para la representación de gráficos. ChartMimic incluye 1,000 tripletas (figura, instrucción, código) curadas por humanos, que representan casos de uso auténticos de gráficos encontrados en artículos científicos de diversos dominios (por ejemplo, Física, Ciencias de la Computación, Economía, etc.). Estos gráficos abarcan 18 tipos regulares y 4 tipos avanzados, diversificándose en 191 subcategorías. Además, proponemos métricas de evaluación de múltiples niveles para proporcionar una evaluación automática y exhaustiva del código generado y los gráficos renderizados. A diferencia de los benchmarks existentes de generación de código, ChartMimic hace hincapié en evaluar la capacidad de los LMMs para armonizar una combinación de habilidades cognitivas, que incluyen comprensión visual, generación de código y razonamiento multimodal. La evaluación de 3 modelos propietarios y 11 modelos de código abierto resalta los desafíos sustanciales que plantea ChartMimic. Incluso los avanzados GPT-4V y Claude-3-opus solo alcanzan una puntuación promedio de 73.2 y 53.7, respectivamente, lo que indica un margen significativo de mejora. Anticipamos que ChartMimic inspirará el desarrollo de los LMMs, avanzando en la búsqueda de la inteligencia artificial general.
English
We introduce a new benchmark, ChartMimic, aimed at assessing the
visually-grounded code generation capabilities of large multimodal models
(LMMs). ChartMimic utilizes information-intensive visual charts and textual
instructions as inputs, requiring LMMs to generate the corresponding code for
chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction,
code) triplets, which represent the authentic chart use cases found in
scientific papers across various domains(e.g., Physics, Computer Science,
Economics, etc). These charts span 18 regular types and 4 advanced types,
diversifying into 191 subcategories. Furthermore, we propose multi-level
evaluation metrics to provide an automatic and thorough assessment of the
output code and the rendered charts. Unlike existing code generation
benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to
harmonize a blend of cognitive capabilities, encompassing visual understanding,
code generation, and cross-modal reasoning. The evaluation of 3 proprietary
models and 11 open-weight models highlights the substantial challenges posed by
ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average
score of 73.2 and 53.7, respectively, indicating significant room for
improvement. We anticipate that ChartMimic will inspire the development of
LMMs, advancing the pursuit of artificial general intelligence.