Benchmark It Yourself (BIY): Preparando um Conjunto de Dados e Avaliando Modelos de IA para Tarefas Relacionadas a Gráficos de Dispersão
Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks
October 7, 2025
Autores: João Palmeiro, Diogo Duarte, Rita Costa, Pedro Bizarro
cs.AI
Resumo
Os modelos de IA são cada vez mais utilizados para análise e visualização de dados, porém os benchmarks raramente abordam tarefas específicas para gráficos de dispersão, limitando a compreensão do desempenho. Para preencher essa lacuna em um dos tipos de gráficos mais comuns, introduzimos um conjunto de dados sintético e anotado com mais de 18.000 gráficos de dispersão, gerados a partir de seis geradores de dados e 17 designs de gráficos, além de um benchmark baseado nesse conjunto. Avaliamos modelos proprietários da OpenAI e do Google utilizando N-shot prompting em cinco tarefas distintas, derivadas das anotações de caixas delimitadoras de clusters, suas coordenadas centrais e coordenadas de outliers. Os modelos da OpenAI e o Gemini 2.5 Flash, especialmente quando instruídos com exemplos, são opções viáveis para contar clusters e, no caso do Flash, identificar outliers (Acurácia acima de 90%). No entanto, os resultados para tarefas relacionadas à localização são insatisfatórios: Precisão e Revocação estão próximas ou abaixo de 50%, exceto para o Flash na identificação de outliers (65,01%). Além disso, o impacto do design do gráfico no desempenho parece ser um fator secundário, mas é recomendável evitar gráficos de dispersão com proporções amplas (16:9 e 21:9) ou aqueles coloridos aleatoriamente. Materiais suplementares estão disponíveis em https://github.com/feedzai/biy-paper.
English
AI models are increasingly used for data analysis and visualization, yet
benchmarks rarely address scatterplot-specific tasks, limiting insight into
performance. To address this gap for one of the most common chart types, we
introduce a synthetic, annotated dataset of over 18,000 scatterplots from six
data generators and 17 chart designs, and a benchmark based on it. We evaluate
proprietary models from OpenAI and Google using N-shot prompting on five
distinct tasks derived from annotations of cluster bounding boxes, their center
coordinates, and outlier coordinates. OpenAI models and Gemini 2.5 Flash,
especially when prompted with examples, are viable options for counting
clusters and, in Flash's case, outliers (90%+ Accuracy). However, the results
for localization-related tasks are unsatisfactory: Precision and Recall are
near or below 50%, except for Flash in outlier identification (65.01%).
Furthermore, the impact of chart design on performance appears to be a
secondary factor, but it is advisable to avoid scatterplots with wide aspect
ratios (16:9 and 21:9) or those colored randomly. Supplementary materials are
available at https://github.com/feedzai/biy-paper.