DV-World: Avaliação de Agentes de Visualização de Dados em Cenários do Mundo Real

Resumo

A visualização de dados (VD) no mundo real requer uma ancoragem ambiental nativa, evolução multiplataforma e alinhamento proativo de intenções. No entanto, os benchmarks existentes frequentemente sofrem de confinamento em sandboxes de código, tarefas de criação em linguagem única e pressuposição de intenção perfeita. Para preencher essas lacunas, introduzimos o DV-World, um benchmark composto por 260 tarefas projetadas para avaliar agentes de VD em todo o ciclo de vida profissional do mundo real. O DV-World abrange três domínios: DV-Sheet para manipulação nativa de planilhas, incluindo criação de gráficos e painéis, bem como reparo de diagnósticos; DV-Evolution para adaptar e reestruturar artefatos visuais de referência para se adequar a novos dados em diversos paradigmas de programação; e DV-Interact para o alinhamento proativo de intenções com um simulador de usuário que imita requisitos ambíguos do mundo real. Nossa estrutura de avaliação híbrida integra Alinhamento de Valor de Tabela para precisão numérica e MLLM-como-Juiz com rubricas para avaliação semântico-visual. Experimentos revelam que os modelos de última geração atingem menos de 50% de desempenho geral, expondo déficits críticos no tratamento dos complexos desafios da visualização de dados do mundo real. O DV-World fornece um ambiente de teste realista para direcionar o desenvolvimento em direção à expertise versátil exigida nos fluxos de trabalho empresariais. Nossos dados e código estão disponíveis em https://github.com/DA-Open/DV-World.

English

Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.

DV-World: Avaliação de Agentes de Visualização de Dados em Cenários do Mundo Real

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Resumo

Support