ChatPaper.aiChatPaper

Spider2-V: Quanto Sono Lontani gli Agenti Multimodali dall'Automatizzare i Flussi di Lavoro della Scienza e dell'Ingegneria dei Dati?

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

July 15, 2024
Autori: Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu
cs.AI

Abstract

I flussi di lavoro di data science e ingegneria spesso si estendono su più fasi, dall'archiviazione all'orchestrazione, utilizzando strumenti come BigQuery, dbt e Airbyte. Con l'avanzamento dei modelli linguistici visivi (VLMs) nella comprensione multimodale e nella generazione di codice, gli agenti basati su VLM potrebbero potenzialmente automatizzare questi flussi di lavoro generando query SQL, codice Python e operazioni GUI. Questa automazione può migliorare la produttività degli esperti, democratizzando al contempo l'accesso all'analisi di dati su larga scala. In questo articolo, introduciamo Spider2-V, il primo benchmark multimodale per agenti focalizzato sui flussi di lavoro professionali di data science e ingegneria, caratterizzato da 494 task reali in ambienti informatici autentici e che incorpora 20 applicazioni professionali di livello enterprise. Questi task, derivati da casi d'uso reali, valutano la capacità di un agente multimodale di eseguire attività legate ai dati scrivendo codice e gestendo la GUI nei sistemi software enterprise per i dati. Per bilanciare il realismo della simulazione con la semplicità di valutazione, abbiamo dedicato uno sforzo significativo allo sviluppo di configurazioni automatiche per l'impostazione dei task e alla creazione accurata di metriche di valutazione per ciascun task. Inoltre, abbiamo integrato gli agenti multimodali con documentazione completa di questi sistemi software enterprise per i dati. La nostra valutazione empirica rivela che gli agenti basati su LLM/VLM allo stato dell'arte non automatizzano in modo affidabile interi flussi di lavoro dati (14,0% di successo). Anche con una guida passo-passo, questi agenti continuano a ottenere risultati inferiori nei task che richiedono azioni GUI dettagliate e ad alta intensità di conoscenza (16,2%) e che coinvolgono spazi di lavoro remoti ospitati su cloud (10,6%). Speriamo che Spider2-V apra la strada a agenti multimodali autonomi per trasformare l'automazione dei flussi di lavoro di data science e ingegneria. Il nostro codice e i dati sono disponibili su https://spider2-v.github.io.
English
Data science and engineering workflows often span multiple stages, from warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As vision language models (VLMs) advance in multimodal understanding and code generation, VLM-based agents could potentially automate these workflows by generating SQL queries, Python code, and GUI operations. This automation can improve the productivity of experts while democratizing access to large-scale data analysis. In this paper, we introduce Spider2-V, the first multimodal agent benchmark focusing on professional data science and engineering workflows, featuring 494 real-world tasks in authentic computer environments and incorporating 20 enterprise-level professional applications. These tasks, derived from real-world use cases, evaluate the ability of a multimodal agent to perform data-related tasks by writing code and managing the GUI in enterprise data software systems. To balance realistic simulation with evaluation simplicity, we devote significant effort to developing automatic configurations for task setup and carefully crafting evaluation metrics for each task. Furthermore, we supplement multimodal agents with comprehensive documents of these enterprise data software systems. Our empirical evaluation reveals that existing state-of-the-art LLM/VLM-based agents do not reliably automate full data workflows (14.0% success). Even with step-by-step guidance, these agents still underperform in tasks that require fine-grained, knowledge-intensive GUI actions (16.2%) and involve remote cloud-hosted workspaces (10.6%). We hope that Spider2-V paves the way for autonomous multimodal agents to transform the automation of data science and engineering workflow. Our code and data are available at https://spider2-v.github.io.
PDF72November 28, 2024