DV-World: Valutazione Comparativa degli Agenti di Visualizzazione dei Dati in Scenari Reali

Abstract

La visualizzazione dei dati (DV) nel mondo reale richiede un ancoraggio ambientale nativo, un'evoluzione cross-platform e un allineamento proattivo dell'intento. Tuttavia, i benchmark esistenti spesso soffrono di limitazioni da sandbox di codice, di compiti incentrati esclusivamente sulla creazione in un singolo linguaggio e del presupposto di un intento perfetto. Per colmare queste lacune, introduciamo DV-World, un benchmark di 260 task progettato per valutare gli agenti di DV lungo l'intero ciclo di vita professionale reale. DV-World copre tre domini: DV-Sheet per la manipolazione nativa di fogli di calcolo, inclusa la creazione di grafici e dashboard nonché la riparazione diagnostica; DV-Evolution per adattare e ristrutturare artefatti visivi di riferimento per adattarli a nuovi dati attraverso paradigmi di programmazione diversi; e DV-Interact per l'allineamento proattivo dell'intento con un simulatore utente che imita i requisiti ambigui del mondo reale. Il nostro framework di valutazione ibrido integra Table-value Alignment per la precisione numerica e MLLM-as-a-Judge con rubriche per la valutazione semantico-visiva. Gli esperimenti rivelano che i modelli allo stato dell'arte raggiungono meno del 50% delle prestazioni complessive, evidenziando deficit critici nella gestione delle complesse sfide della visualizzazione dei dati reale. DV-World fornisce un banco di prova realistico per indirizzare lo sviluppo verso le competenze versatili richieste nei flussi di lavoro aziendali. I nostri dati e codice sono disponibili su https://github.com/DA-Open/DV-World{questa pagina del progetto}.

English

Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.

DV-World: Valutazione Comparativa degli Agenti di Visualizzazione dei Dati in Scenari Reali

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Abstract

Support