OSWorld: Evaluación de Agentes Multimodales para Tareas Abiertas en Entornos Informáticos Reales
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
April 11, 2024
Autores: Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu
cs.AI
Resumen
Los agentes autónomos que realizan tareas informáticas complejas con intervención humana mínima tienen el potencial de transformar la interacción humano-computadora, mejorando significativamente la accesibilidad y la productividad. Sin embargo, los puntos de referencia existentes carecen de un entorno interactivo o se limitan a entornos específicos de ciertas aplicaciones o dominios, lo que no refleja la naturaleza diversa y compleja del uso real de computadoras, limitando así el alcance de las tareas y la escalabilidad de los agentes. Para abordar este problema, presentamos OSWorld, el primer entorno informático real escalable para agentes multimodales, que admite la configuración de tareas, la evaluación basada en la ejecución y el aprendizaje interactivo en varios sistemas operativos como Ubuntu, Windows y macOS. OSWorld puede servir como un entorno informático unificado e integrado para evaluar tareas informáticas abiertas que involucran aplicaciones arbitrarias. Basándonos en OSWorld, creamos un punto de referencia de 369 tareas informáticas que involucran aplicaciones web y de escritorio reales en dominios abiertos, operaciones de E/S de archivos del sistema operativo y flujos de trabajo que abarcan múltiples aplicaciones. Cada ejemplo de tarea se deriva de casos de uso real de computadoras e incluye una configuración detallada del estado inicial y un script de evaluación basado en la ejecución para una evaluación confiable y reproducible. Una evaluación extensa de los agentes basados en LLM/VLM de última generación en OSWorld revela deficiencias significativas en su capacidad para servir como asistentes informáticos. Mientras que los humanos pueden completar más del 72.36% de las tareas, el mejor modelo logra solo un 12.24% de éxito, principalmente debido a dificultades con la interpretación de interfaces gráficas y el conocimiento operativo. Un análisis exhaustivo utilizando OSWorld proporciona información valiosa para el desarrollo de agentes generalistas multimodales que no era posible con puntos de referencia anteriores. Nuestro código, entorno, modelos de referencia y datos están disponibles públicamente en https://os-world.github.io.
English
Autonomous agents that accomplish complex computer tasks with minimal human
interventions have the potential to transform human-computer interaction,
significantly enhancing accessibility and productivity. However, existing
benchmarks either lack an interactive environment or are limited to
environments specific to certain applications or domains, failing to reflect
the diverse and complex nature of real-world computer use, thereby limiting the
scope of tasks and agent scalability. To address this issue, we introduce
OSWorld, the first-of-its-kind scalable, real computer environment for
multimodal agents, supporting task setup, execution-based evaluation, and
interactive learning across various operating systems such as Ubuntu, Windows,
and macOS. OSWorld can serve as a unified, integrated computer environment for
assessing open-ended computer tasks that involve arbitrary applications.
Building upon OSWorld, we create a benchmark of 369 computer tasks involving
real web and desktop apps in open domains, OS file I/O, and workflows spanning
multiple applications. Each task example is derived from real-world computer
use cases and includes a detailed initial state setup configuration and a
custom execution-based evaluation script for reliable, reproducible evaluation.
Extensive evaluation of state-of-the-art LLM/VLM-based agents on OSWorld
reveals significant deficiencies in their ability to serve as computer
assistants. While humans can accomplish over 72.36% of the tasks, the best
model achieves only 12.24% success, primarily struggling with GUI grounding and
operational knowledge. Comprehensive analysis using OSWorld provides valuable
insights for developing multimodal generalist agents that were not possible
with previous benchmarks. Our code, environment, baseline models, and data are
publicly available at https://os-world.github.io.Summary
AI-Generated Summary