Spider2-V: ¿Qué tan lejos están los agentes multimodales de automatizar los flujos de trabajo de la ciencia de datos y la ingeniería?
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?
July 15, 2024
Autores: Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu
cs.AI
Resumen
Los flujos de trabajo de ciencia de datos e ingeniería a menudo abarcan múltiples etapas, desde el almacenamiento hasta la orquestación, utilizando herramientas como BigQuery, dbt y Airbyte. A medida que los modelos de lenguaje visual (VLMs) avanzan en la comprensión multimodal y generación de código, los agentes basados en VLM podrían potencialmente automatizar estos flujos de trabajo generando consultas SQL, código Python y operaciones de GUI. Esta automatización puede mejorar la productividad de los expertos al mismo tiempo que democratiza el acceso al análisis de datos a gran escala. En este documento, presentamos Spider2-V, el primer punto de referencia de agentes multimodales centrado en flujos de trabajo profesionales de ciencia de datos e ingeniería, que incluye 494 tareas del mundo real en entornos informáticos auténticos e incorpora 20 aplicaciones profesionales de nivel empresarial. Estas tareas, derivadas de casos de uso del mundo real, evalúan la capacidad de un agente multimodal para realizar tareas relacionadas con datos escribiendo código y gestionando la GUI en sistemas de software de datos empresariales. Para equilibrar la simulación realista con la simplicidad de la evaluación, dedicamos un esfuerzo significativo al desarrollo de configuraciones automáticas para la preparación de tareas y a la cuidadosa elaboración de métricas de evaluación para cada tarea. Además, complementamos los agentes multimodales con documentos exhaustivos de estos sistemas de software de datos empresariales. Nuestra evaluación empírica revela que los agentes basados en LLM/VLM de última generación existentes no automatizan de manera confiable flujos de trabajo completos de datos (14.0% de éxito). Incluso con orientación paso a paso, estos agentes siguen teniendo un rendimiento inferior en tareas que requieren acciones de GUI detalladas y basadas en conocimiento (16.2%) e implican espacios de trabajo remotos alojados en la nube (10.6%). Esperamos que Spider2-V allane el camino para que agentes multimodales autónomos transformen la automatización de flujos de trabajo de ciencia de datos e ingeniería. Nuestro código y datos están disponibles en https://spider2-v.github.io.
English
Data science and engineering workflows often span multiple stages, from
warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As
vision language models (VLMs) advance in multimodal understanding and code
generation, VLM-based agents could potentially automate these workflows by
generating SQL queries, Python code, and GUI operations. This automation can
improve the productivity of experts while democratizing access to large-scale
data analysis. In this paper, we introduce Spider2-V, the first multimodal
agent benchmark focusing on professional data science and engineering
workflows, featuring 494 real-world tasks in authentic computer environments
and incorporating 20 enterprise-level professional applications. These tasks,
derived from real-world use cases, evaluate the ability of a multimodal agent
to perform data-related tasks by writing code and managing the GUI in
enterprise data software systems. To balance realistic simulation with
evaluation simplicity, we devote significant effort to developing automatic
configurations for task setup and carefully crafting evaluation metrics for
each task. Furthermore, we supplement multimodal agents with comprehensive
documents of these enterprise data software systems. Our empirical evaluation
reveals that existing state-of-the-art LLM/VLM-based agents do not reliably
automate full data workflows (14.0% success). Even with step-by-step guidance,
these agents still underperform in tasks that require fine-grained,
knowledge-intensive GUI actions (16.2%) and involve remote cloud-hosted
workspaces (10.6%). We hope that Spider2-V paves the way for autonomous
multimodal agents to transform the automation of data science and engineering
workflow. Our code and data are available at https://spider2-v.github.io.Summary
AI-Generated Summary