DV-World: Оценка агентов визуализации данных в реальных сценариях
DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios
April 28, 2026
Авторы: Jinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu
cs.AI
Аннотация
Визуализация данных (VD) в реальных условиях требует естественного погружения в среду, кросс-платформенной эволюции и проактивного согласования намерений. Однако существующие бенчмарки часто страдают от ограничений песочницы кода, задач только на создание на одном языке и предположения о совершенстве намерений. Чтобы устранить эти пробелы, мы представляем DV-World — бенчмарк из 260 задач, предназначенный для оценки агентов VD в рамках реальных профессиональных жизненных циклов. DV-World охватывает три области: DV-Sheet для нативной работы с электронными таблицами, включая создание диаграмм и дашбордов, а также диагностику и исправление ошибок; DV-Evolution для адаптации и реструктуризации референсных визуальных артефактов под новые данные в различных парадигмах программирования; и DV-Interact для проактивного согласования намерений с симулятором пользователя, имитирующим реальные неоднозначные требования. Наша гибридная система оценки интегрирует Table-value Alignment для проверки числовой точности и MLLM-as-a-Judge с рубриками для семантико-визуальной оценки. Эксперименты показывают, что современные модели демонстрируют общую производительность менее 50%, выявляя критические пробелы в решении сложных задач реальной визуализации данных. DV-World предоставляет реалистичный полигон для направления разработки в сторону универсальной экспертизы, требуемой в корпоративных процессах. Наши данные и код доступны по адресу https://github.com/DA-Open/DV-World{страница проекта}.
English
Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.