DV-World: Het benchmarken van data-visualisatie-agenten in realistische scenario's

Samenvatting

Real-world data visualisatie (DV) vereist een natuurlijke inbedding in de werkomgeving, evolutie over platformen heen, en proactieve afstemming van intenties. Toch kampen bestaande benchmarks vaak met beperkingen door code-sandboxes, taken die zich enkel op creatie in één taal richten, en de aanname van perfecte intentie. Om deze kloof te dichten, introduceren we DV-World, een benchmark met 260 taken ontworpen om DV-agenten te evalueren over de volledige professionele levenscyclus heen. DV-World omvat drie domeinen: DV-Sheet voor het natuurlijk manipuleren van spreadsheets, inclusief het maken van grafieken en dashboards alsook diagnostisch herstel; DV-Evolution voor het aanpassen en herstructureren van referentie-visualisaties om nieuwe data te accommoderen over diverse programmeerparadigma's heen; en DV-Interact voor proactieve intentie-afstemming met een gebruikerssimulator die ambiguïteit uit de praktijk nabootst. Ons hybride evaluatieraamwerk integreert Table-value Alignment voor numerieke precisie en MLLM-as-a-Judge met rubrics voor semantisch-visuele beoordeling. Experimenten tonen aan dat state-of-the-art modellen minder dan 50% algemene prestaties halen, wat kritieke tekortkomingen blootstelt in het omgaan met de complexe uitdagingen van real-world data visualisatie. DV-World biedt een realistische testomgeving om de ontwikkeling te sturen naar de veelzijdige expertise die vereist is in bedrijfswerkstromen. Onze data en code zijn beschikbaar op https://github.com/DA-Open/DV-World.

English

Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.

DV-World: Het benchmarken van data-visualisatie-agenten in realistische scenario's

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Samenvatting

Support