DV-World : Évaluation comparative des agents de visualisation de données dans des scénarios réels

Résumé

La visualisation de données (VD) en contexte réel nécessite un ancrage environnemental natif, une évolution multiplateforme et un alignement proactif des intentions. Pourtant, les référentiels existants souffrent souvent d'un confinement dans des bac à sable de code, de tâches limitées à la création dans un seul langage, et de l'hypothèse d'une intention parfaite. Pour combler ces lacunes, nous présentons DV-World, un référentiel de 260 tâches conçu pour évaluer les agents de VD à travers les cycles de vie professionnels réels. DV-World couvre trois domaines : DV-Sheet pour la manipulation native de feuilles de calcul incluant la création de graphiques et de tableaux de bord ainsi que la réparation diagnostique ; DV-Evolution pour adapter et restructurer des artefacts visuels de référence afin de les ajuster à de nouvelles données à travers divers paradigmes de programmation ; et DV-Interact pour l'alignement proactif des intentions avec un simulateur d'utilisateur reproduisant les exigences ambiguës du monde réel. Notre cadre d'évaluation hybride intègre l'Alignement sur Valeur de Tableau pour la précision numérique et un MLLM-comme-Juge avec grilles d'évaluation pour l'analyse sémantique-visuelle. Les expériences révèlent que les modèles de pointe atteignent moins de 50% de performance globale, exposant des déficits critiques dans la gestion des défis complexes de la visualisation de données réelles. DV-World fournit un banc d'essai réaliste pour orienter le développement vers l'expertise polyvalente requise dans les flux de travail organisationnels. Nos données et codes sont disponibles à l'adresse https://github.com/DA-Open/DV-World{cette page de projet}.

English

Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.

DV-World : Évaluation comparative des agents de visualisation de données dans des scénarios réels

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Résumé

Support