ChatPaper.aiChatPaper

Benchmark It Yourself (BIY): Preparación de un Conjunto de Datos y Evaluación de Modelos de IA para Tareas Relacionadas con Diagramas de Dispersión

Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks

October 7, 2025
Autores: João Palmeiro, Diogo Duarte, Rita Costa, Pedro Bizarro
cs.AI

Resumen

Los modelos de IA se utilizan cada vez más para el análisis y la visualización de datos, sin embargo, los puntos de referencia rara vez abordan tareas específicas de gráficos de dispersión, lo que limita la comprensión del rendimiento. Para abordar esta brecha en uno de los tipos de gráficos más comunes, presentamos un conjunto de datos sintético y anotado de más de 18,000 gráficos de dispersión generados a partir de seis generadores de datos y 17 diseños de gráficos, junto con un punto de referencia basado en él. Evaluamos modelos propietarios de OpenAI y Google utilizando el enfoque de N-shot prompting en cinco tareas distintas derivadas de las anotaciones de los cuadros delimitadores de clusters, sus coordenadas centrales y las coordenadas de valores atípicos. Los modelos de OpenAI y Gemini 2.5 Flash, especialmente cuando se les proporcionan ejemplos, son opciones viables para contar clusters y, en el caso de Flash, para identificar valores atípicos (precisión del 90% o más). Sin embargo, los resultados para tareas relacionadas con la localización son insatisfactorios: la precisión y la exhaustividad están cerca o por debajo del 50%, excepto para Flash en la identificación de valores atípicos (65.01%). Además, el impacto del diseño del gráfico en el rendimiento parece ser un factor secundario, pero se recomienda evitar gráficos de dispersión con relaciones de aspecto amplias (16:9 y 21:9) o aquellos coloreados de manera aleatoria. Los materiales complementarios están disponibles en https://github.com/feedzai/biy-paper.
English
AI models are increasingly used for data analysis and visualization, yet benchmarks rarely address scatterplot-specific tasks, limiting insight into performance. To address this gap for one of the most common chart types, we introduce a synthetic, annotated dataset of over 18,000 scatterplots from six data generators and 17 chart designs, and a benchmark based on it. We evaluate proprietary models from OpenAI and Google using N-shot prompting on five distinct tasks derived from annotations of cluster bounding boxes, their center coordinates, and outlier coordinates. OpenAI models and Gemini 2.5 Flash, especially when prompted with examples, are viable options for counting clusters and, in Flash's case, outliers (90%+ Accuracy). However, the results for localization-related tasks are unsatisfactory: Precision and Recall are near or below 50%, except for Flash in outlier identification (65.01%). Furthermore, the impact of chart design on performance appears to be a secondary factor, but it is advisable to avoid scatterplots with wide aspect ratios (16:9 and 21:9) or those colored randomly. Supplementary materials are available at https://github.com/feedzai/biy-paper.
PDF12October 8, 2025