Benchmark It Yourself (BIY) : Préparation d'un jeu de données et évaluation comparative des modèles d'IA pour les tâches liées aux diagrammes de dispersion
Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks
October 7, 2025
papers.authors: João Palmeiro, Diogo Duarte, Rita Costa, Pedro Bizarro
cs.AI
papers.abstract
Les modèles d'IA sont de plus en plus utilisés pour l'analyse et la visualisation de données, mais les benchmarks abordent rarement les tâches spécifiques aux nuages de points, limitant ainsi les insights sur leurs performances. Pour combler cette lacune concernant l'un des types de graphiques les plus courants, nous introduisons un ensemble de données synthétiques annotées de plus de 18 000 nuages de points, générés par six générateurs de données et 17 designs de graphiques, ainsi qu'un benchmark basé sur celui-ci. Nous évaluons des modèles propriétaires d'OpenAI et de Google en utilisant l'approche N-shot prompting sur cinq tâches distinctes dérivées des annotations des boîtes englobantes des clusters, de leurs coordonnées centrales et des coordonnées des points aberrants. Les modèles d'OpenAI et Gemini 2.5 Flash, en particulier lorsqu'ils sont guidés par des exemples, constituent des options viables pour le décompte des clusters et, dans le cas de Flash, des points aberrants (précision de 90 % ou plus). Cependant, les résultats pour les tâches liées à la localisation sont insatisfaisants : la précision et le rappel sont proches ou inférieurs à 50 %, à l'exception de Flash dans l'identification des points aberrants (65,01 %). Par ailleurs, l'impact du design du graphique sur la performance semble être un facteur secondaire, mais il est recommandé d'éviter les nuages de points avec des ratios d'aspect larges (16:9 et 21:9) ou ceux colorés de manière aléatoire. Les matériaux supplémentaires sont disponibles à l'adresse https://github.com/feedzai/biy-paper.
English
AI models are increasingly used for data analysis and visualization, yet
benchmarks rarely address scatterplot-specific tasks, limiting insight into
performance. To address this gap for one of the most common chart types, we
introduce a synthetic, annotated dataset of over 18,000 scatterplots from six
data generators and 17 chart designs, and a benchmark based on it. We evaluate
proprietary models from OpenAI and Google using N-shot prompting on five
distinct tasks derived from annotations of cluster bounding boxes, their center
coordinates, and outlier coordinates. OpenAI models and Gemini 2.5 Flash,
especially when prompted with examples, are viable options for counting
clusters and, in Flash's case, outliers (90%+ Accuracy). However, the results
for localization-related tasks are unsatisfactory: Precision and Recall are
near or below 50%, except for Flash in outlier identification (65.01%).
Furthermore, the impact of chart design on performance appears to be a
secondary factor, but it is advisable to avoid scatterplots with wide aspect
ratios (16:9 and 21:9) or those colored randomly. Supplementary materials are
available at https://github.com/feedzai/biy-paper.