DV-World: Bewertung von Datenvisualisierungs-Agenten in realen Szenarien

Zusammenfassung

Die Visualisierung von Real-World-Daten erfordert eine native Umgebungsintegration, plattformübergreifende Evolution und proaktive Intent-Abgleichung. Bisherige Benchmarks leiden jedoch häufig unter Code-Sandbox-Beschränkungen, einsprachigen Nur-Erstellungsaufgaben und der Annahme perfekter Intent-Spezifikation. Um diese Lücken zu schließen, stellen wir DV-World vor – einen Benchmark mit 260 Aufgaben zur Bewertung von DV-Agenten über reale professionale Lebenszyklen hinweg. DV-World umfasst drei Domänen: DV-Sheet zur nativen Tabellenkalkulationsbearbeitung inklusive Diagramm- und Dashboard-Erstellung sowie diagnostischer Reparatur; DV-Evolution zur Anpassung und Restrukturierung referenzieller Visual-Artefakte für neue Daten across diverser Programmierparadigmen; und DV-Interact für proaktiven Intent-Abgleich mit einem User-Simulator, der reale mehrdeutige Anforderungen nachbildet. Unser hybrides Evaluierungsframework integriert Table-Value-Alignment für numerische Präzision sowie MLLM-as-a-Judge mit Bewertungsrastern für semantisch-visuelle Beurteilung. Experimente zeigen, dass State-of-the-Art-Modelle weniger als 50% Gesamtleistung erreichen – ein Beleg für kritische Defizite bei der Bewältigung komplexer Real-World-Herausforderungen in der Datenvisualisierung. DV-World bietet eine realistische Testumgebung zur Entwicklung vielseitiger Expertise für Unternehmensworkflows. Unsere Daten und Codes sind verfügbar unter https://github.com/DA-Open/DV-World{dieser Projektseite}.

English

Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.

DV-World: Bewertung von Datenvisualisierungs-Agenten in realen Szenarien

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Zusammenfassung

Support