ChatPaper.aiChatPaper

Benchmark It Yourself (BIY): 散布図関連タスクのためのデータセット作成とAIモデルのベンチマーキング

Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks

October 7, 2025
著者: João Palmeiro, Diogo Duarte, Rita Costa, Pedro Bizarro
cs.AI

要旨

AIモデルはデータ分析と可視化にますます利用されているが、ベンチマークは散布図特有のタスクにほとんど対応しておらず、性能に関する洞察が限られている。このギャップを埋めるため、最も一般的なチャートタイプの一つである散布図に焦点を当て、6つのデータジェネレータと17のチャートデザインから生成された18,000以上の合成注釈付きデータセットと、それに基づくベンチマークを導入した。OpenAIとGoogleのプロプライエタリモデルを、クラスタのバウンディングボックス、その中心座標、および外れ値座標の注釈に基づいて導出された5つの異なるタスクに対してN-shotプロンプティングを用いて評価した。OpenAIのモデルとGemini 2.5 Flashは、特に例を提示された場合、クラスタのカウントにおいて有効な選択肢であり、Flashの場合は外れ値の識別においても90%以上の精度を示した。しかし、位置特定に関連するタスクの結果は不満足であり、PrecisionとRecallは50%前後またはそれ以下であったが、Flashの外れ値識別では65.01%であった。さらに、チャートデザインが性能に与える影響は二次的な要因であるが、アスペクト比が広い散布図(16:9や21:9)やランダムに色付けされた散布図は避けることが推奨される。補足資料はhttps://github.com/feedzai/biy-paperで入手可能である。
English
AI models are increasingly used for data analysis and visualization, yet benchmarks rarely address scatterplot-specific tasks, limiting insight into performance. To address this gap for one of the most common chart types, we introduce a synthetic, annotated dataset of over 18,000 scatterplots from six data generators and 17 chart designs, and a benchmark based on it. We evaluate proprietary models from OpenAI and Google using N-shot prompting on five distinct tasks derived from annotations of cluster bounding boxes, their center coordinates, and outlier coordinates. OpenAI models and Gemini 2.5 Flash, especially when prompted with examples, are viable options for counting clusters and, in Flash's case, outliers (90%+ Accuracy). However, the results for localization-related tasks are unsatisfactory: Precision and Recall are near or below 50%, except for Flash in outlier identification (65.01%). Furthermore, the impact of chart design on performance appears to be a secondary factor, but it is advisable to avoid scatterplots with wide aspect ratios (16:9 and 21:9) or those colored randomly. Supplementary materials are available at https://github.com/feedzai/biy-paper.
PDF12October 8, 2025