Spider2-V: ¿Qué tan lejos están los agentes multimodales de automatizar los flujos de trabajo de la ciencia de datos y la ingeniería?

Resumen

Los flujos de trabajo de ciencia de datos e ingeniería a menudo abarcan múltiples etapas, desde el almacenamiento hasta la orquestación, utilizando herramientas como BigQuery, dbt y Airbyte. A medida que los modelos de lenguaje visual (VLMs) avanzan en la comprensión multimodal y generación de código, los agentes basados en VLM podrían potencialmente automatizar estos flujos de trabajo generando consultas SQL, código Python y operaciones de GUI. Esta automatización puede mejorar la productividad de los expertos al mismo tiempo que democratiza el acceso al análisis de datos a gran escala. En este documento, presentamos Spider2-V, el primer punto de referencia de agentes multimodales centrado en flujos de trabajo profesionales de ciencia de datos e ingeniería, que incluye 494 tareas del mundo real en entornos informáticos auténticos e incorpora 20 aplicaciones profesionales de nivel empresarial. Estas tareas, derivadas de casos de uso del mundo real, evalúan la capacidad de un agente multimodal para realizar tareas relacionadas con datos escribiendo código y gestionando la GUI en sistemas de software de datos empresariales. Para equilibrar la simulación realista con la simplicidad de la evaluación, dedicamos un esfuerzo significativo al desarrollo de configuraciones automáticas para la preparación de tareas y a la cuidadosa elaboración de métricas de evaluación para cada tarea. Además, complementamos los agentes multimodales con documentos exhaustivos de estos sistemas de software de datos empresariales. Nuestra evaluación empírica revela que los agentes basados en LLM/VLM de última generación existentes no automatizan de manera confiable flujos de trabajo completos de datos (14.0% de éxito). Incluso con orientación paso a paso, estos agentes siguen teniendo un rendimiento inferior en tareas que requieren acciones de GUI detalladas y basadas en conocimiento (16.2%) e implican espacios de trabajo remotos alojados en la nube (10.6%). Esperamos que Spider2-V allane el camino para que agentes multimodales autónomos transformen la automatización de flujos de trabajo de ciencia de datos e ingeniería. Nuestro código y datos están disponibles en https://spider2-v.github.io.

English

Data science and engineering workflows often span multiple stages, from warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As vision language models (VLMs) advance in multimodal understanding and code generation, VLM-based agents could potentially automate these workflows by generating SQL queries, Python code, and GUI operations. This automation can improve the productivity of experts while democratizing access to large-scale data analysis. In this paper, we introduce Spider2-V, the first multimodal agent benchmark focusing on professional data science and engineering workflows, featuring 494 real-world tasks in authentic computer environments and incorporating 20 enterprise-level professional applications. These tasks, derived from real-world use cases, evaluate the ability of a multimodal agent to perform data-related tasks by writing code and managing the GUI in enterprise data software systems. To balance realistic simulation with evaluation simplicity, we devote significant effort to developing automatic configurations for task setup and carefully crafting evaluation metrics for each task. Furthermore, we supplement multimodal agents with comprehensive documents of these enterprise data software systems. Our empirical evaluation reveals that existing state-of-the-art LLM/VLM-based agents do not reliably automate full data workflows (14.0% success). Even with step-by-step guidance, these agents still underperform in tasks that require fine-grained, knowledge-intensive GUI actions (16.2%) and involve remote cloud-hosted workspaces (10.6%). We hope that Spider2-V paves the way for autonomous multimodal agents to transform the automation of data science and engineering workflow. Our code and data are available at https://spider2-v.github.io.

Spider2-V: ¿Qué tan lejos están los agentes multimodales de automatizar los flujos de trabajo de la ciencia de datos y la ingeniería?

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Resumen

Support