RiOSWorld : Évaluation des risques des agents informatiques multimodaux
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents
May 31, 2025
Auteurs: Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
cs.AI
Résumé
Avec le développement rapide des modèles de langage multimodaux de grande envergure (MLLMs), ceux-ci sont de plus en plus déployés en tant qu'agents autonomes d'utilisation informatique capables d'accomplir des tâches informatiques complexes. Cependant, une question pressante se pose : les principes de gestion des risques de sécurité conçus et alignés pour les MLLMs généraux dans des scénarios de dialogue peuvent-ils être efficacement transférés à des scénarios réels d'utilisation informatique ? Les recherches existantes sur l'évaluation des risques de sécurité des agents d'utilisation informatique basés sur des MLLMs souffrent de plusieurs limitations : elles manquent soit d'environnements interactifs réalistes, soit se concentrent étroitement sur un ou quelques types de risques spécifiques. Ces limitations ignorent la complexité, la variabilité et la diversité des environnements réels, limitant ainsi une évaluation complète des risques pour les agents d'utilisation informatique. Pour pallier cela, nous introduisons RiOSWorld, un benchmark conçu pour évaluer les risques potentiels des agents basés sur des MLLMs lors de manipulations informatiques réelles. Notre benchmark comprend 492 tâches à risque couvrant diverses applications informatiques, incluant le web, les réseaux sociaux, les multimédias, les systèmes d'exploitation, les emails et les logiciels de bureautique. Nous catégorisons ces risques en deux classes principales en fonction de leur source : (i) les risques d'origine utilisateur et (ii) les risques environnementaux. Pour l'évaluation, nous examinons les risques de sécurité sous deux angles : (i) l'intention de l'objectif de risque et (ii) la réalisation de l'objectif de risque. Des expériences approfondies avec des agents multimodaux sur RiOSWorld démontrent que les agents d'utilisation informatique actuels font face à des risques de sécurité significatifs dans des scénarios réels. Nos résultats soulignent la nécessité et l'urgence de l'alignement de la sécurité pour les agents d'utilisation informatique dans les manipulations informatiques réelles, fournissant des insights précieux pour le développement d'agents d'utilisation informatique fiables. Notre benchmark est disponible publiquement à l'adresse https://yjyddq.github.io/RiOSWorld.github.io/.
English
With the rapid development of multimodal large language models (MLLMs), they
are increasingly deployed as autonomous computer-use agents capable of
accomplishing complex computer tasks. However, a pressing issue arises: Can the
safety risk principles designed and aligned for general MLLMs in dialogue
scenarios be effectively transferred to real-world computer-use scenarios?
Existing research on evaluating the safety risks of MLLM-based computer-use
agents suffers from several limitations: it either lacks realistic interactive
environments, or narrowly focuses on one or a few specific risk types. These
limitations ignore the complexity, variability, and diversity of real-world
environments, thereby restricting comprehensive risk evaluation for
computer-use agents. To this end, we introduce RiOSWorld, a benchmark
designed to evaluate the potential risks of MLLM-based agents during real-world
computer manipulations. Our benchmark includes 492 risky tasks spanning various
computer applications, involving web, social media, multimedia, os, email, and
office software. We categorize these risks into two major classes based on
their risk source: (i) User-originated risks and (ii) Environmental risks. For
the evaluation, we evaluate safety risks from two perspectives: (i) Risk goal
intention and (ii) Risk goal completion. Extensive experiments with multimodal
agents on RiOSWorld demonstrate that current computer-use agents
confront significant safety risks in real-world scenarios. Our findings
highlight the necessity and urgency of safety alignment for computer-use agents
in real-world computer manipulation, providing valuable insights for developing
trustworthy computer-use agents. Our benchmark is publicly available at
https://yjyddq.github.io/RiOSWorld.github.io/.