Benchmark It Yourself (BIY) : Préparation d'un jeu de données et évaluation comparative des modèles d'IA pour les tâches liées aux diagrammes de dispersion

Résumé

Les modèles d'IA sont de plus en plus utilisés pour l'analyse et la visualisation de données, mais les benchmarks abordent rarement les tâches spécifiques aux nuages de points, limitant ainsi les insights sur leurs performances. Pour combler cette lacune concernant l'un des types de graphiques les plus courants, nous introduisons un ensemble de données synthétiques annotées de plus de 18 000 nuages de points, générés par six générateurs de données et 17 designs de graphiques, ainsi qu'un benchmark basé sur celui-ci. Nous évaluons des modèles propriétaires d'OpenAI et de Google en utilisant l'approche N-shot prompting sur cinq tâches distinctes dérivées des annotations des boîtes englobantes des clusters, de leurs coordonnées centrales et des coordonnées des points aberrants. Les modèles d'OpenAI et Gemini 2.5 Flash, en particulier lorsqu'ils sont guidés par des exemples, constituent des options viables pour le décompte des clusters et, dans le cas de Flash, des points aberrants (précision de 90 % ou plus). Cependant, les résultats pour les tâches liées à la localisation sont insatisfaisants : la précision et le rappel sont proches ou inférieurs à 50 %, à l'exception de Flash dans l'identification des points aberrants (65,01 %). Par ailleurs, l'impact du design du graphique sur la performance semble être un facteur secondaire, mais il est recommandé d'éviter les nuages de points avec des ratios d'aspect larges (16:9 et 21:9) ou ceux colorés de manière aléatoire. Les matériaux supplémentaires sont disponibles à l'adresse https://github.com/feedzai/biy-paper.

English

AI models are increasingly used for data analysis and visualization, yet benchmarks rarely address scatterplot-specific tasks, limiting insight into performance. To address this gap for one of the most common chart types, we introduce a synthetic, annotated dataset of over 18,000 scatterplots from six data generators and 17 chart designs, and a benchmark based on it. We evaluate proprietary models from OpenAI and Google using N-shot prompting on five distinct tasks derived from annotations of cluster bounding boxes, their center coordinates, and outlier coordinates. OpenAI models and Gemini 2.5 Flash, especially when prompted with examples, are viable options for counting clusters and, in Flash's case, outliers (90%+ Accuracy). However, the results for localization-related tasks are unsatisfactory: Precision and Recall are near or below 50%, except for Flash in outlier identification (65.01%). Furthermore, the impact of chart design on performance appears to be a secondary factor, but it is advisable to avoid scatterplots with wide aspect ratios (16:9 and 21:9) or those colored randomly. Supplementary materials are available at https://github.com/feedzai/biy-paper.