Spider2-V : À quelle distance les agents multimodaux se trouvent-ils de l'automatisation des workflows en science des données et en ingénierie ?

Résumé

Les workflows de science des données et d'ingénierie s'étendent souvent sur plusieurs étapes, du stockage à l'orchestration, en utilisant des outils comme BigQuery, dbt et Airbyte. Alors que les modèles de langage visuel (VLMs) progressent dans la compréhension multimodale et la génération de code, les agents basés sur des VLMs pourraient potentiellement automatiser ces workflows en générant des requêtes SQL, du code Python et des opérations d'interface graphique (GUI). Cette automatisation peut améliorer la productivité des experts tout en démocratisant l'accès à l'analyse de données à grande échelle. Dans cet article, nous présentons Spider2-V, le premier benchmark d'agents multimodaux axé sur les workflows professionnels de science des données et d'ingénierie, comprenant 494 tâches issues du monde réel dans des environnements informatiques authentiques et intégrant 20 applications professionnelles de niveau entreprise. Ces tâches, dérivées de cas d'utilisation réels, évaluent la capacité d'un agent multimodal à exécuter des tâches liées aux données en écrivant du code et en gérant l'interface graphique dans des systèmes logiciels de données d'entreprise. Pour équilibrer une simulation réaliste avec la simplicité de l'évaluation, nous consacrons un effort significatif à développer des configurations automatiques pour la mise en place des tâches et à élaborer soigneusement des métriques d'évaluation pour chaque tâche. De plus, nous complétons les agents multimodaux avec une documentation complète de ces systèmes logiciels de données d'entreprise. Notre évaluation empirique révèle que les agents basés sur les LLM/VLM de pointe actuels ne parviennent pas à automatiser de manière fiable l'ensemble des workflows de données (14,0 % de réussite). Même avec un guidage étape par étape, ces agents sous-performent dans les tâches nécessitant des actions d'interface graphique fines et riches en connaissances (16,2 %) et impliquant des espaces de travail hébergés dans le cloud (10,6 %). Nous espérons que Spider2-V ouvrira la voie à des agents multimodaux autonomes pour transformer l'automatisation des workflows de science des données et d'ingénierie. Notre code et nos données sont disponibles à l'adresse https://spider2-v.github.io.

English

Data science and engineering workflows often span multiple stages, from warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As vision language models (VLMs) advance in multimodal understanding and code generation, VLM-based agents could potentially automate these workflows by generating SQL queries, Python code, and GUI operations. This automation can improve the productivity of experts while democratizing access to large-scale data analysis. In this paper, we introduce Spider2-V, the first multimodal agent benchmark focusing on professional data science and engineering workflows, featuring 494 real-world tasks in authentic computer environments and incorporating 20 enterprise-level professional applications. These tasks, derived from real-world use cases, evaluate the ability of a multimodal agent to perform data-related tasks by writing code and managing the GUI in enterprise data software systems. To balance realistic simulation with evaluation simplicity, we devote significant effort to developing automatic configurations for task setup and carefully crafting evaluation metrics for each task. Furthermore, we supplement multimodal agents with comprehensive documents of these enterprise data software systems. Our empirical evaluation reveals that existing state-of-the-art LLM/VLM-based agents do not reliably automate full data workflows (14.0% success). Even with step-by-step guidance, these agents still underperform in tasks that require fine-grained, knowledge-intensive GUI actions (16.2%) and involve remote cloud-hosted workspaces (10.6%). We hope that Spider2-V paves the way for autonomous multimodal agents to transform the automation of data science and engineering workflow. Our code and data are available at https://spider2-v.github.io.

Spider2-V : À quelle distance les agents multimodaux se trouvent-ils de l'automatisation des workflows en science des données et en ingénierie ?

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Résumé

Support