ChartArena: Avaliação Comparativa de Análise de Gráficos em Diferentes Idiomas, Cenários e Formatos

Resumo

Gráficos são um meio primário para transmitir informações quantitativas e relacionais, no entanto, avaliar sistematicamente modelos de interpretação de gráficos continua sendo difícil. Os benchmarks existentes focam em tipos restritos de gráficos e deixam estruturas diagramáticas, como fluxogramas e mapas mentais, em grande parte não abordadas, enquanto os modelos produzem saídas em formatos incompatíveis, e os conjuntos de dados raramente incluem as imagens impressas ou desenhadas à mão encontradas na prática. Para abordar essas questões, apresentamos o ChartArena, um benchmark bilíngue abrangente que cobre oito famílias de gráficos, abrangendo tanto gráficos numéricos quanto estruturas diagramáticas, cada um avaliado em três cenários visuais: renderizações digitais, fotos impressas e fotos desenhadas à mão. O conjunto de dados é construído por meio de um pipeline de anotação colaborativa humano-agente com verificação humana em múltiplas etapas para garantir a confiabilidade das anotações. Para permitir uma comparação justa entre modelos, projetamos ainda um protocolo de avaliação independente de formato que mapeia saídas heterogêneas em dois espaços semânticos canônicos: uma visão de triplas normalizada e uma visão de grafo direcionado, e os pontua com métricas sensíveis à estrutura. Por meio de uma avaliação extensa de 26 MLLMs líderes, observamos três achados consistentes: (i) modelos proprietários de ponta como o Gemini 3.1 Pro lideram no geral, mas os sistemas de código aberto mais fortes estão rapidamente fechando a lacuna; (ii) modelos de interpretação de documentos lidam razoavelmente com gráficos numéricos, mas ficam muito atrás em estruturas diagramáticas; e (iii) interpretadores especializados de gráficos permanecem limitados a famílias restritas de gráficos. Em todos os modelos, gráficos de radar e cenários desenhados à mão permanecem especialmente desafiadores. Esses achados mostram que o ChartArena expõe lacunas claras de capacidade e fornece uma base unificada para o progresso futuro. O ChartArena está disponível publicamente em https://github.com/pspdada/ChartArena.

English

Charts are a primary medium for conveying quantitative and relational information, yet systematically evaluating chart parsing models remains difficult. Existing benchmarks focus on narrow chart types and leave diagrammatic structures such as flowcharts and mind maps largely unaddressed, while models produce outputs in incompatible formats, and datasets rarely include the printed or hand-drawn images encountered in practice. To address these issues, we introduce ChartArena, a comprehensive bilingual benchmark covering eight chart families spanning both numeric charts and diagrammatic structures, each evaluated across three visual scenarios: digital renderings, printed photos, and hand-drawn photos. The dataset is built via a human-agent collaborative annotation pipeline with multi-stage human verification to ensure annotation reliability. To enable fair cross-model comparison, we further design a format-agnostic evaluation protocol that maps heterogeneous outputs into two canonical semantic spaces, a normalized triple view and a directed graph view, and scores them with structure-aware metrics. Through extensive evaluation of 26 leading MLLMs, we observe three consistent findings: (i) frontier proprietary models such as Gemini 3.1 Pro lead overall, yet the strongest open-source systems are rapidly closing the gap; (ii) document parsing models handle numeric charts reasonably but fall sharply behind on diagrammatic structures; and (iii) expert chart parsers remain limited to narrow chart families. Across all models, radar charts and hand-drawn scenarios stay especially challenging. These findings show that ChartArena exposes clear capability gaps and provides a unified foundation for future progress. ChartArena is publicly available at https://github.com/pspdada/ChartArena.