ChatPaper.aiChatPaper

DV-World: Het benchmarken van data-visualisatie-agenten in realistische scenario's

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

April 28, 2026
Auteurs: Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu
cs.AI

Samenvatting

Real-world data visualisatie (DV) vereist een natuurlijke inbedding in de werkomgeving, evolutie over platformen heen, en proactieve afstemming van intenties. Toch kampen bestaande benchmarks vaak met beperkingen door code-sandboxes, taken die zich enkel op creatie in één taal richten, en de aanname van perfecte intentie. Om deze kloof te dichten, introduceren we DV-World, een benchmark met 260 taken ontworpen om DV-agenten te evalueren over de volledige professionele levenscyclus heen. DV-World omvat drie domeinen: DV-Sheet voor het natuurlijk manipuleren van spreadsheets, inclusief het maken van grafieken en dashboards alsook diagnostisch herstel; DV-Evolution voor het aanpassen en herstructureren van referentie-visualisaties om nieuwe data te accommoderen over diverse programmeerparadigma's heen; en DV-Interact voor proactieve intentie-afstemming met een gebruikerssimulator die ambiguïteit uit de praktijk nabootst. Ons hybride evaluatieraamwerk integreert Table-value Alignment voor numerieke precisie en MLLM-as-a-Judge met rubrics voor semantisch-visuele beoordeling. Experimenten tonen aan dat state-of-the-art modellen minder dan 50% algemene prestaties halen, wat kritieke tekortkomingen blootstelt in het omgaan met de complexe uitdagingen van real-world data visualisatie. DV-World biedt een realistische testomgeving om de ontwikkeling te sturen naar de veelzijdige expertise die vereist is in bedrijfswerkstromen. Onze data en code zijn beschikbaar op https://github.com/DA-Open/DV-World.
English
Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.
PDF371April 30, 2026