RiOSWorld: Evaluación del Riesgo de Agentes de Uso de Computación Multimodal
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents
May 31, 2025
Autores: Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
cs.AI
Resumen
Con el rápido desarrollo de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), estos se están implementando cada vez más como agentes autónomos de uso informático capaces de realizar tareas complejas en computadoras. Sin embargo, surge una cuestión apremiante: ¿Pueden los principios de riesgo de seguridad diseñados y alineados para MLLMs generales en escenarios de diálogo transferirse efectivamente a escenarios reales de uso informático? La investigación existente sobre la evaluación de los riesgos de seguridad de los agentes de uso informático basados en MLLMs presenta varias limitaciones: o bien carece de entornos interactivos realistas, o se centra de manera estrecha en uno o pocos tipos específicos de riesgo. Estas limitaciones ignoran la complejidad, variabilidad y diversidad de los entornos del mundo real, lo que restringe una evaluación integral de riesgos para los agentes de uso informático. Con este fin, presentamos RiOSWorld, un punto de referencia diseñado para evaluar los riesgos potenciales de los agentes basados en MLLMs durante manipulaciones informáticas del mundo real. Nuestro punto de referencia incluye 492 tareas riesgosas que abarcan diversas aplicaciones informáticas, como web, redes sociales, multimedia, sistemas operativos, correo electrónico y software de oficina. Clasificamos estos riesgos en dos categorías principales según su fuente de origen: (i) riesgos originados por el usuario y (ii) riesgos ambientales. Para la evaluación, analizamos los riesgos de seguridad desde dos perspectivas: (i) intención del objetivo de riesgo y (ii) cumplimiento del objetivo de riesgo. Experimentos extensos con agentes multimodales en RiOSWorld demuestran que los agentes de uso informático actuales enfrentan riesgos de seguridad significativos en escenarios del mundo real. Nuestros hallazgos resaltan la necesidad y urgencia de la alineación de seguridad para los agentes de uso informático en manipulaciones informáticas del mundo real, proporcionando insights valiosos para el desarrollo de agentes de uso informático confiables. Nuestro punto de referencia está disponible públicamente en https://yjyddq.github.io/RiOSWorld.github.io/.
English
With the rapid development of multimodal large language models (MLLMs), they
are increasingly deployed as autonomous computer-use agents capable of
accomplishing complex computer tasks. However, a pressing issue arises: Can the
safety risk principles designed and aligned for general MLLMs in dialogue
scenarios be effectively transferred to real-world computer-use scenarios?
Existing research on evaluating the safety risks of MLLM-based computer-use
agents suffers from several limitations: it either lacks realistic interactive
environments, or narrowly focuses on one or a few specific risk types. These
limitations ignore the complexity, variability, and diversity of real-world
environments, thereby restricting comprehensive risk evaluation for
computer-use agents. To this end, we introduce RiOSWorld, a benchmark
designed to evaluate the potential risks of MLLM-based agents during real-world
computer manipulations. Our benchmark includes 492 risky tasks spanning various
computer applications, involving web, social media, multimedia, os, email, and
office software. We categorize these risks into two major classes based on
their risk source: (i) User-originated risks and (ii) Environmental risks. For
the evaluation, we evaluate safety risks from two perspectives: (i) Risk goal
intention and (ii) Risk goal completion. Extensive experiments with multimodal
agents on RiOSWorld demonstrate that current computer-use agents
confront significant safety risks in real-world scenarios. Our findings
highlight the necessity and urgency of safety alignment for computer-use agents
in real-world computer manipulation, providing valuable insights for developing
trustworthy computer-use agents. Our benchmark is publicly available at
https://yjyddq.github.io/RiOSWorld.github.io/.