DV-World: Оценка агентов визуализации данных в реальных сценариях

Аннотация

Визуализация данных (VD) в реальных условиях требует естественного погружения в среду, кросс-платформенной эволюции и проактивного согласования намерений. Однако существующие бенчмарки часто страдают от ограничений песочницы кода, задач только на создание на одном языке и предположения о совершенстве намерений. Чтобы устранить эти пробелы, мы представляем DV-World — бенчмарк из 260 задач, предназначенный для оценки агентов VD в рамках реальных профессиональных жизненных циклов. DV-World охватывает три области: DV-Sheet для нативной работы с электронными таблицами, включая создание диаграмм и дашбордов, а также диагностику и исправление ошибок; DV-Evolution для адаптации и реструктуризации референсных визуальных артефактов под новые данные в различных парадигмах программирования; и DV-Interact для проактивного согласования намерений с симулятором пользователя, имитирующим реальные неоднозначные требования. Наша гибридная система оценки интегрирует Table-value Alignment для проверки числовой точности и MLLM-as-a-Judge с рубриками для семантико-визуальной оценки. Эксперименты показывают, что современные модели демонстрируют общую производительность менее 50%, выявляя критические пробелы в решении сложных задач реальной визуализации данных. DV-World предоставляет реалистичный полигон для направления разработки в сторону универсальной экспертизы, требуемой в корпоративных процессах. Наши данные и код доступны по адресу https://github.com/DA-Open/DV-World{страница проекта}.

English

Real-world data visualization (DV) requires native environmental grounding, cross-platform evolution, and proactive intent alignment. Yet, existing benchmarks often suffer from code-sandbox confinement, single-language creation-only tasks, and assumption of perfect intent. To bridge these gaps, we introduce DV-World, a benchmark of 260 tasks designed to evaluate DV agents across real-world professional lifecycles. DV-World spans three domains: DV-Sheet for native spreadsheet manipulation including chart and dashboard creation as well as diagnostic repair; DV-Evolution for adapting and restructuring reference visual artifacts to fit new data across diverse programming paradigms and DV-Interact for proactive intent alignment with a user simulator that mimics real-world ambiguous requirements. Our hybrid evaluation framework integrates Table-value Alignment for numerical precision and MLLM-as-a-Judge with rubrics for semantic-visual assessment. Experiments reveal that state-of-the-art models achieve less than 50% overall performance, exposing critical deficits in handling the complex challenges of real-world data visualization. DV-World provides a realistic testbed to steer development toward the versatile expertise required in enterprise workflows. Our data and code are available at https://github.com/DA-Open/DV-World{this project page}.

DV-World: Оценка агентов визуализации данных в реальных сценариях

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Аннотация

Support