ChatPaper.aiChatPaper

DV-World: Bewertung von Datenvisualisierungs-Agenten in realen Szenarien

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

April 28, 2026
Autoren: Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu
cs.AI

Zusammenfassung

Die Visualisierung von Real-World-Daten erfordert eine native Umgebungsintegration, plattformübergreifende Evolution und proaktive Intent-Abgleichung. Bisherige Benchmarks leiden jedoch häufig unter Code-Sandbox-Beschränkungen, einsprachigen Nur-Erstellungsaufgaben und der Annahme perfekter Intent-Spezifikation. Um diese Lücken zu schließen, stellen wir DV-World vor – einen Benchmark mit 260 Aufgaben zur Bewertung von DV-Agenten über reale professionale Lebenszyklen hinweg. DV-World umfasst drei Domänen: DV-Sheet zur nativen Tabellenkalkulationsbearbeitung inklusive Diagramm- und Dashboard-Erstellung sowie diagnostischer Reparatur; DV-Evolution zur Anpassung und Restrukturierung referenzieller Visual-Artefakte für neue Daten across diverser Programmierparadigmen; und DV-Interact für proaktiven Intent-Abgleich mit einem User-Simulator, der reale mehrdeutige Anforderungen nachbildet. Unser hybrides Evaluierungsframework integriert Table-Value-Alignment für numerische Präzision sowie MLLM-as-a-Judge mit Bewertungsrastern für semantisch-visuelle Beurteilung. Experimente zeigen, dass State-of-the-Art-Modelle weniger als 50% Gesamtleistung erreichen – ein Beleg für kritische Defizite bei der Bewältigung komplexer Real-World-Herausforderungen in der Datenvisualisierung. DV-World bietet eine realistische Testumgebung zur Entwicklung vielseitiger Expertise für Unternehmensworkflows. Unsere Daten und Codes sind verfügbar unter https://github.com/DA-Open/DV-World{dieser Projektseite}.
English
Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.
PDF371April 30, 2026