Benchmark It Yourself (BIY): 산점도 관련 작업을 위한 데이터셋 준비 및 AI 모델 벤치마킹
Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks
October 7, 2025
저자: João Palmeiro, Diogo Duarte, Rita Costa, Pedro Bizarro
cs.AI
초록
AI 모델은 데이터 분석 및 시각화에 점점 더 많이 사용되고 있지만, 벤치마크는 산점도 특화 작업을 거의 다루지 않아 성능에 대한 통찰이 제한적입니다. 가장 일반적인 차트 유형 중 하나인 산점도에 대한 이 격차를 해소하기 위해, 우리는 6개의 데이터 생성기와 17가지 차트 디자인에서 생성된 18,000개 이상의 주석이 달린 합성 데이터셋과 이를 기반으로 한 벤치마크를 소개합니다. OpenAI와 Google의 독점 모델을 클러스터 경계 상자, 중심 좌표, 이상치 좌표의 주석에서 도출된 5가지 작업에 대해 N-shot 프롬프팅을 사용하여 평가했습니다. OpenAI 모델과 Gemini 2.5 Flash, 특히 예제가 제공된 경우, 클러스터 개수 세기 작업에서 유용한 선택지로 나타났으며, Flash의 경우 이상치 식별에서도 90% 이상의 정확도를 보였습니다. 그러나 위치 관련 작업의 결과는 만족스럽지 못했습니다: 정밀도와 재현율이 50% 근처 또는 그 이하로 나타났으며, Flash의 이상치 식별(65.01%)을 제외하고는 예외가 없었습니다. 또한, 차트 디자인이 성능에 미치는 영향은 부차적인 요인으로 보이지만, 가로 세로 비율이 넓은(16:9 및 21:9) 산점도나 무작위로 색상이 지정된 산점도는 피하는 것이 좋습니다. 보조 자료는 https://github.com/feedzai/biy-paper에서 확인할 수 있습니다.
English
AI models are increasingly used for data analysis and visualization, yet
benchmarks rarely address scatterplot-specific tasks, limiting insight into
performance. To address this gap for one of the most common chart types, we
introduce a synthetic, annotated dataset of over 18,000 scatterplots from six
data generators and 17 chart designs, and a benchmark based on it. We evaluate
proprietary models from OpenAI and Google using N-shot prompting on five
distinct tasks derived from annotations of cluster bounding boxes, their center
coordinates, and outlier coordinates. OpenAI models and Gemini 2.5 Flash,
especially when prompted with examples, are viable options for counting
clusters and, in Flash's case, outliers (90%+ Accuracy). However, the results
for localization-related tasks are unsatisfactory: Precision and Recall are
near or below 50%, except for Flash in outlier identification (65.01%).
Furthermore, the impact of chart design on performance appears to be a
secondary factor, but it is advisable to avoid scatterplots with wide aspect
ratios (16:9 and 21:9) or those colored randomly. Supplementary materials are
available at https://github.com/feedzai/biy-paper.