RiOSWorld: Benchmarking del Rischio per Agenti Multimodali di Utilizzo del Computer
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents
May 31, 2025
Autori: Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
cs.AI
Abstract
Con il rapido sviluppo dei modelli linguistici multimodali di grandi dimensioni (MLLM), questi vengono sempre più impiegati come agenti autonomi per l'uso del computer, in grado di portare a termine compiti informatici complessi. Tuttavia, sorge una questione pressante: i principi di rischio per la sicurezza progettati e allineati per gli MLLM generali in scenari di dialogo possono essere efficacemente trasferiti a scenari reali di utilizzo del computer? La ricerca esistente sulla valutazione dei rischi per la sicurezza degli agenti basati su MLLM per l'uso del computer presenta diverse limitazioni: manca di ambienti interattivi realistici o si concentra in modo ristretto su uno o pochi tipi specifici di rischio. Queste limitazioni ignorano la complessità, la variabilità e la diversità degli ambienti reali, limitando così una valutazione completa del rischio per gli agenti di utilizzo del computer. A tal fine, introduciamo RiOSWorld, un benchmark progettato per valutare i potenziali rischi degli agenti basati su MLLM durante le manipolazioni informatiche nel mondo reale. Il nostro benchmark include 492 task rischiosi che coprono varie applicazioni informatiche, tra cui web, social media, multimedia, sistema operativo, email e software per ufficio. Classifichiamo questi rischi in due categorie principali in base alla loro fonte: (i) rischi originati dall'utente e (ii) rischi ambientali. Per la valutazione, consideriamo i rischi per la sicurezza da due prospettive: (i) intenzione dell'obiettivo di rischio e (ii) completamento dell'obiettivo di rischio. Esperimenti estesi con agenti multimodali su RiOSWorld dimostrano che gli attuali agenti per l'uso del computer affrontano significativi rischi per la sicurezza in scenari reali. I nostri risultati evidenziano la necessità e l'urgenza di un allineamento della sicurezza per gli agenti di utilizzo del computer nelle manipolazioni informatiche reali, fornendo spunti preziosi per lo sviluppo di agenti di utilizzo del computer affidabili. Il nostro benchmark è disponibile pubblicamente all'indirizzo https://yjyddq.github.io/RiOSWorld.github.io/.
English
With the rapid development of multimodal large language models (MLLMs), they
are increasingly deployed as autonomous computer-use agents capable of
accomplishing complex computer tasks. However, a pressing issue arises: Can the
safety risk principles designed and aligned for general MLLMs in dialogue
scenarios be effectively transferred to real-world computer-use scenarios?
Existing research on evaluating the safety risks of MLLM-based computer-use
agents suffers from several limitations: it either lacks realistic interactive
environments, or narrowly focuses on one or a few specific risk types. These
limitations ignore the complexity, variability, and diversity of real-world
environments, thereby restricting comprehensive risk evaluation for
computer-use agents. To this end, we introduce RiOSWorld, a benchmark
designed to evaluate the potential risks of MLLM-based agents during real-world
computer manipulations. Our benchmark includes 492 risky tasks spanning various
computer applications, involving web, social media, multimedia, os, email, and
office software. We categorize these risks into two major classes based on
their risk source: (i) User-originated risks and (ii) Environmental risks. For
the evaluation, we evaluate safety risks from two perspectives: (i) Risk goal
intention and (ii) Risk goal completion. Extensive experiments with multimodal
agents on RiOSWorld demonstrate that current computer-use agents
confront significant safety risks in real-world scenarios. Our findings
highlight the necessity and urgency of safety alignment for computer-use agents
in real-world computer manipulation, providing valuable insights for developing
trustworthy computer-use agents. Our benchmark is publicly available at
https://yjyddq.github.io/RiOSWorld.github.io/.