Benchmark It Yourself (BIY): Preparando um Conjunto de Dados e Avaliando Modelos de IA para Tarefas Relacionadas a Gráficos de Dispersão

Resumo

Os modelos de IA são cada vez mais utilizados para análise e visualização de dados, porém os benchmarks raramente abordam tarefas específicas para gráficos de dispersão, limitando a compreensão do desempenho. Para preencher essa lacuna em um dos tipos de gráficos mais comuns, introduzimos um conjunto de dados sintético e anotado com mais de 18.000 gráficos de dispersão, gerados a partir de seis geradores de dados e 17 designs de gráficos, além de um benchmark baseado nesse conjunto. Avaliamos modelos proprietários da OpenAI e do Google utilizando N-shot prompting em cinco tarefas distintas, derivadas das anotações de caixas delimitadoras de clusters, suas coordenadas centrais e coordenadas de outliers. Os modelos da OpenAI e o Gemini 2.5 Flash, especialmente quando instruídos com exemplos, são opções viáveis para contar clusters e, no caso do Flash, identificar outliers (Acurácia acima de 90%). No entanto, os resultados para tarefas relacionadas à localização são insatisfatórios: Precisão e Revocação estão próximas ou abaixo de 50%, exceto para o Flash na identificação de outliers (65,01%). Além disso, o impacto do design do gráfico no desempenho parece ser um fator secundário, mas é recomendável evitar gráficos de dispersão com proporções amplas (16:9 e 21:9) ou aqueles coloridos aleatoriamente. Materiais suplementares estão disponíveis em https://github.com/feedzai/biy-paper.

English

AI models are increasingly used for data analysis and visualization, yet benchmarks rarely address scatterplot-specific tasks, limiting insight into performance. To address this gap for one of the most common chart types, we introduce a synthetic, annotated dataset of over 18,000 scatterplots from six data generators and 17 chart designs, and a benchmark based on it. We evaluate proprietary models from OpenAI and Google using N-shot prompting on five distinct tasks derived from annotations of cluster bounding boxes, their center coordinates, and outlier coordinates. OpenAI models and Gemini 2.5 Flash, especially when prompted with examples, are viable options for counting clusters and, in Flash's case, outliers (90%+ Accuracy). However, the results for localization-related tasks are unsatisfactory: Precision and Recall are near or below 50%, except for Flash in outlier identification (65.01%). Furthermore, the impact of chart design on performance appears to be a secondary factor, but it is advisable to avoid scatterplots with wide aspect ratios (16:9 and 21:9) or those colored randomly. Supplementary materials are available at https://github.com/feedzai/biy-paper.

Benchmark It Yourself (BIY): Preparando um Conjunto de Dados e Avaliando Modelos de IA para Tarefas Relacionadas a Gráficos de Dispersão

Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks

Resumo

Support