DV-World: 実世界シナリオにおけるデータ可視化エージェントのベンチマーキング
DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios
April 28, 2026
著者: Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu
cs.AI
要旨
実世界のデータ可視化(DV)には、ネイティブな環境への接地、クロスプラットフォームな進化、能動的な意図整合が求められる。しかし、既存のベンチマークはコードサンドボックスへの閉じ込め、単一言語による作成タスクのみ、完璧な意図を前提とする傾向がある。これらのギャップを埋めるため、実世界の専門的なライフサイクル全体でDVエージェントを評価する260のタスクからなるベンチマーク「DV-World」を提案する。DV-Worldは3つの領域をカバーする:図表やダッシュボードの作成から診断的修復までを含むネイティブなスプレッドシート操作のための「DV-Sheet」、多様なプログラミングパラダイムにわたる参照可視化成果物の新規データへの適応・再構築のための「DV-Evolution」、実世界の曖昧な要求を模倣するユーザーシミュレータによる能動的意図整合のための「DV-Interact」である。ハイブリッド評価フレームワークは、数値精度のための「Table-value Alignment」と、意味的・視覚的評価のための評価基準付き「MLLM-as-a-Judge」を統合する。実験では、最先端モデルが全体のパフォーマンス50%未満に留まり、実世界のデータ可視化の複雑な課題に対処する能力に重大な欠陥があることが明らかになった。DV-Worldは、企業ワークフローで必要とされる汎用的な専門知識に向けた開発を導く現実的なテストベッドを提供する。データとコードはhttps://github.com/DA-Open/DV-World{このプロジェクトページ}で公開されている。
English
Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.