DV-World: Avaliação de Agentes de Visualização de Dados em Cenários do Mundo Real
DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios
April 28, 2026
Autores: Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu
cs.AI
Resumo
A visualização de dados (VD) no mundo real requer uma ancoragem ambiental nativa, evolução multiplataforma e alinhamento proativo de intenções. No entanto, os benchmarks existentes frequentemente sofrem de confinamento em sandboxes de código, tarefas de criação em linguagem única e pressuposição de intenção perfeita. Para preencher essas lacunas, introduzimos o DV-World, um benchmark composto por 260 tarefas projetadas para avaliar agentes de VD em todo o ciclo de vida profissional do mundo real. O DV-World abrange três domínios: DV-Sheet para manipulação nativa de planilhas, incluindo criação de gráficos e painéis, bem como reparo de diagnósticos; DV-Evolution para adaptar e reestruturar artefatos visuais de referência para se adequar a novos dados em diversos paradigmas de programação; e DV-Interact para o alinhamento proativo de intenções com um simulador de usuário que imita requisitos ambíguos do mundo real. Nossa estrutura de avaliação híbrida integra Alinhamento de Valor de Tabela para precisão numérica e MLLM-como-Juiz com rubricas para avaliação semântico-visual. Experimentos revelam que os modelos de última geração atingem menos de 50% de desempenho geral, expondo déficits críticos no tratamento dos complexos desafios da visualização de dados do mundo real. O DV-World fornece um ambiente de teste realista para direcionar o desenvolvimento em direção à expertise versátil exigida nos fluxos de trabalho empresariais. Nossos dados e código estão disponíveis em https://github.com/DA-Open/DV-World.
English
Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.