Spider2-V : À quelle distance les agents multimodaux se trouvent-ils de l'automatisation des workflows en science des données et en ingénierie ?
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?
July 15, 2024
Auteurs: Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu
cs.AI
Résumé
Les workflows de science des données et d'ingénierie s'étendent souvent sur plusieurs étapes, du stockage à l'orchestration, en utilisant des outils comme BigQuery, dbt et Airbyte. Alors que les modèles de langage visuel (VLMs) progressent dans la compréhension multimodale et la génération de code, les agents basés sur des VLMs pourraient potentiellement automatiser ces workflows en générant des requêtes SQL, du code Python et des opérations d'interface graphique (GUI). Cette automatisation peut améliorer la productivité des experts tout en démocratisant l'accès à l'analyse de données à grande échelle. Dans cet article, nous présentons Spider2-V, le premier benchmark d'agents multimodaux axé sur les workflows professionnels de science des données et d'ingénierie, comprenant 494 tâches issues du monde réel dans des environnements informatiques authentiques et intégrant 20 applications professionnelles de niveau entreprise. Ces tâches, dérivées de cas d'utilisation réels, évaluent la capacité d'un agent multimodal à exécuter des tâches liées aux données en écrivant du code et en gérant l'interface graphique dans des systèmes logiciels de données d'entreprise. Pour équilibrer une simulation réaliste avec la simplicité de l'évaluation, nous consacrons un effort significatif à développer des configurations automatiques pour la mise en place des tâches et à élaborer soigneusement des métriques d'évaluation pour chaque tâche. De plus, nous complétons les agents multimodaux avec une documentation complète de ces systèmes logiciels de données d'entreprise. Notre évaluation empirique révèle que les agents basés sur les LLM/VLM de pointe actuels ne parviennent pas à automatiser de manière fiable l'ensemble des workflows de données (14,0 % de réussite). Même avec un guidage étape par étape, ces agents sous-performent dans les tâches nécessitant des actions d'interface graphique fines et riches en connaissances (16,2 %) et impliquant des espaces de travail hébergés dans le cloud (10,6 %). Nous espérons que Spider2-V ouvrira la voie à des agents multimodaux autonomes pour transformer l'automatisation des workflows de science des données et d'ingénierie. Notre code et nos données sont disponibles à l'adresse https://spider2-v.github.io.
English
Data science and engineering workflows often span multiple stages, from
warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As
vision language models (VLMs) advance in multimodal understanding and code
generation, VLM-based agents could potentially automate these workflows by
generating SQL queries, Python code, and GUI operations. This automation can
improve the productivity of experts while democratizing access to large-scale
data analysis. In this paper, we introduce Spider2-V, the first multimodal
agent benchmark focusing on professional data science and engineering
workflows, featuring 494 real-world tasks in authentic computer environments
and incorporating 20 enterprise-level professional applications. These tasks,
derived from real-world use cases, evaluate the ability of a multimodal agent
to perform data-related tasks by writing code and managing the GUI in
enterprise data software systems. To balance realistic simulation with
evaluation simplicity, we devote significant effort to developing automatic
configurations for task setup and carefully crafting evaluation metrics for
each task. Furthermore, we supplement multimodal agents with comprehensive
documents of these enterprise data software systems. Our empirical evaluation
reveals that existing state-of-the-art LLM/VLM-based agents do not reliably
automate full data workflows (14.0% success). Even with step-by-step guidance,
these agents still underperform in tasks that require fine-grained,
knowledge-intensive GUI actions (16.2%) and involve remote cloud-hosted
workspaces (10.6%). We hope that Spider2-V paves the way for autonomous
multimodal agents to transform the automation of data science and engineering
workflow. Our code and data are available at https://spider2-v.github.io.Summary
AI-Generated Summary