ChatPaper.aiChatPaper

DV-World: Valutazione Comparativa degli Agenti di Visualizzazione dei Dati in Scenari Reali

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

April 28, 2026
Autori: Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu
cs.AI

Abstract

La visualizzazione dei dati (DV) nel mondo reale richiede un ancoraggio ambientale nativo, un'evoluzione cross-platform e un allineamento proattivo dell'intento. Tuttavia, i benchmark esistenti spesso soffrono di limitazioni da sandbox di codice, di compiti incentrati esclusivamente sulla creazione in un singolo linguaggio e del presupposto di un intento perfetto. Per colmare queste lacune, introduciamo DV-World, un benchmark di 260 task progettato per valutare gli agenti di DV lungo l'intero ciclo di vita professionale reale. DV-World copre tre domini: DV-Sheet per la manipolazione nativa di fogli di calcolo, inclusa la creazione di grafici e dashboard nonché la riparazione diagnostica; DV-Evolution per adattare e ristrutturare artefatti visivi di riferimento per adattarli a nuovi dati attraverso paradigmi di programmazione diversi; e DV-Interact per l'allineamento proattivo dell'intento con un simulatore utente che imita i requisiti ambigui del mondo reale. Il nostro framework di valutazione ibrido integra Table-value Alignment per la precisione numerica e MLLM-as-a-Judge con rubriche per la valutazione semantico-visiva. Gli esperimenti rivelano che i modelli allo stato dell'arte raggiungono meno del 50% delle prestazioni complessive, evidenziando deficit critici nella gestione delle complesse sfide della visualizzazione dei dati reale. DV-World fornisce un banco di prova realistico per indirizzare lo sviluppo verso le competenze versatili richieste nei flussi di lavoro aziendali. I nostri dati e codice sono disponibili su https://github.com/DA-Open/DV-World{questa pagina del progetto}.
English
Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.
PDF371April 30, 2026