DV-World: Evaluación de Agentes de Visualización de Datos en Escenarios del Mundo Real

Resumen

La visualización de datos (VD) en entornos reales requiere una base ambiental nativa, evolución multiplataforma y alineación proactiva de la intencionalidad. Sin embargo, los puntos de referencia existentes suelen adolecer de confinamiento en entornos de pruebas controlados, tareas de solo creación en un único lenguaje y el supuesto de una intención perfecta. Para salvar estas brechas, presentamos DV-World, un benchmark de 260 tareas diseñado para evaluar agentes de VD a lo largo de ciclos de vida profesionales del mundo real. DV-World abarca tres dominios: DV-Sheet para la manipulación nativa de hojas de cálculo, incluyendo la creación de gráficos y paneles de control, así como la reparación de diagnósticos; DV-Evolution para adaptar y reestructurar artefactos visuales de referencia ajustándolos a nuevos datos en diversos paradigmas de programación; y DV-Interact para la alineación proactiva de la intencionalidad con un simulador de usuario que imita requisitos reales ambiguos. Nuestro marco de evaluación híbrido integra la Alineación de Valor de Tabla para la precisión numérica y MLLM-como-Juez con rúbricas para la evaluación semántico-visual. Los experimentos revelan que los modelos de última generación alcanzan menos del 50% de rendimiento general, exponiendo déficits críticos en el manejo de los complejos desafíos de la visualización de datos del mundo real. DV-World proporciona un banco de pruebas realista para orientar el desarrollo hacia la experiencia versátil requerida en los flujos de trabajo empresariales. Nuestros datos y código están disponibles en https://github.com/DA-Open/DV-World{esta página del proyecto}.

English

Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.

DV-World: Evaluación de Agentes de Visualización de Datos en Escenarios del Mundo Real

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Resumen

Support