DV-World: 실제 시나리오에서 데이터 시각화 에이전트 성능 평가하기
DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios
April 28, 2026
저자: Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu
cs.AI
초록
실세계 데이터 시각화(DV)는 현지 환경 기반 구축, 크로스 플랫폼 진화, 능동적 의도 정렬을 필요로 합니다. 그러나 기존 벤치마크는 코드 샌드박스 제약, 단일 언어 생성 중심 작업, 완벽한 의도 가정 등의 한계를 지닙니다. 이러한 격차를 해소하기 위해 우리는 실제 전문 업무 생애주기 전반에 걸쳐 DV 에이전트를 평가하도록 설계된 260개 작업으로 구성된 벤치마크인 DV-World를 소개합니다. DV-World는 세 가지 영역으로 구성됩니다: 차트 및 대시보드 생성과 진단 수리를 포함한 기본 스프레드시트 조작을 위한 DV-Sheet; 다양한 프로그래밍 패러다임에서 새로운 데이터에 맞게 참조 시각적 아티팩트를 적용 및 재구성하는 DV-Evolution; 실제 모호한 요구사항을 모방하는 사용자 시뮬레이터와의 능동적 의도 정렬을 위한 DV-Interact. 우리의 하이브리드 평가 프레임워크는 수치 정확도를 위한 테이블 값 정렬(Table-value Alignment)과 의미론적-시각적 평가를 위한 평가 기준(rubrics)을 활용한 MLLM-as-a-Judge를 통합합니다. 실험 결과, 최첨단 모델들의 전체 성능이 50% 미만에 그쳐 실세계 데이터 시각화의 복잡한 과제를 처리하는 데 있어 심각한 결함이 있음이 드러났습니다. DV-World는 기업 업무 흐름에 필요한 다재다능한 전문성을 갖춘 개발로 이끌 수 있는 현실적인 테스트베드를 제공합니다. 우리의 데이터와 코드는 https://github.com/DA-Open/DV-World{이 프로젝트 페이지}에서 이용 가능합니다.
English
Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.