RiOSWorld: Het benchmarken van het risico van multimodale computergebruiksagenten
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents
May 31, 2025
Auteurs: Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
cs.AI
Samenvatting
Met de snelle ontwikkeling van multimodale grote taalmodellen (MLLMs) worden ze steeds vaker ingezet als autonome computergebruiksagenten die complexe computertaken kunnen uitvoeren. Er rijst echter een dringende vraag: Kunnen de veiligheidsrisicoprincipes die zijn ontworpen en afgestemd voor algemene MLLMs in dialoogscenario's effectief worden overgedragen naar real-world computergebruiksscenario's? Bestaand onderzoek naar het evalueren van de veiligheidsrisico's van MLLM-gebaseerde computergebruiksagenten kampt met verschillende beperkingen: het ontbreekt aan realistische interactieve omgevingen, of het richt zich slechts op één of een paar specifieke risicotypen. Deze beperkingen negeren de complexiteit, variabiliteit en diversiteit van real-world omgevingen, waardoor een uitgebreide risicobeoordeling voor computergebruiksagenten wordt beperkt. Daarom introduceren we RiOSWorld, een benchmark ontworpen om de potentiële risico's van MLLM-gebaseerde agenten tijdens real-world computermanipulaties te evalueren. Onze benchmark omvat 492 risicovolle taken die verschillende computerapplicaties beslaan, waaronder web, sociale media, multimedia, besturingssystemen, e-mail en kantoorsoftware. We categoriseren deze risico's in twee hoofdklassen op basis van hun risicobron: (i) door de gebruiker veroorzaakte risico's en (ii) omgevingsrisico's. Voor de evaluatie beoordelen we veiligheidsrisico's vanuit twee perspectieven: (i) risicodoelintentie en (ii) risicodoelvoltooiing. Uitgebreide experimenten met multimodale agenten op RiOSWorld tonen aan dat huidige computergebruiksagenten aanzienlijke veiligheidsrisico's ondervinden in real-world scenario's. Onze bevindingen benadrukken de noodzaak en urgentie van veiligheidsafstemming voor computergebruiksagenten in real-world computermanipulatie, en bieden waardevolle inzichten voor het ontwikkelen van betrouwbare computergebruiksagenten. Onze benchmark is publiekelijk beschikbaar op https://yjyddq.github.io/RiOSWorld.github.io/.
English
With the rapid development of multimodal large language models (MLLMs), they
are increasingly deployed as autonomous computer-use agents capable of
accomplishing complex computer tasks. However, a pressing issue arises: Can the
safety risk principles designed and aligned for general MLLMs in dialogue
scenarios be effectively transferred to real-world computer-use scenarios?
Existing research on evaluating the safety risks of MLLM-based computer-use
agents suffers from several limitations: it either lacks realistic interactive
environments, or narrowly focuses on one or a few specific risk types. These
limitations ignore the complexity, variability, and diversity of real-world
environments, thereby restricting comprehensive risk evaluation for
computer-use agents. To this end, we introduce RiOSWorld, a benchmark
designed to evaluate the potential risks of MLLM-based agents during real-world
computer manipulations. Our benchmark includes 492 risky tasks spanning various
computer applications, involving web, social media, multimedia, os, email, and
office software. We categorize these risks into two major classes based on
their risk source: (i) User-originated risks and (ii) Environmental risks. For
the evaluation, we evaluate safety risks from two perspectives: (i) Risk goal
intention and (ii) Risk goal completion. Extensive experiments with multimodal
agents on RiOSWorld demonstrate that current computer-use agents
confront significant safety risks in real-world scenarios. Our findings
highlight the necessity and urgency of safety alignment for computer-use agents
in real-world computer manipulation, providing valuable insights for developing
trustworthy computer-use agents. Our benchmark is publicly available at
https://yjyddq.github.io/RiOSWorld.github.io/.