ChatPaper.aiChatPaper

RiOSWorld: Benchmarking des Risikos multimodaler Computer-Nutzungs-Agenten

RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents

May 31, 2025
Autoren: Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
cs.AI

Zusammenfassung

Mit der rasanten Entwicklung multimodaler großer Sprachmodelle (MLLMs) werden sie zunehmend als autonome Computer-Nutzungs-Agenten eingesetzt, die in der Lage sind, komplexe Computeraufgaben zu bewältigen. Es stellt sich jedoch eine dringende Frage: Können die Sicherheitsrisikoprinzipien, die für allgemeine MLLMs in Dialogszenarien entwickelt und ausgerichtet wurden, effektiv auf reale Computer-Nutzungsszenarien übertragen werden? Die bestehende Forschung zur Bewertung der Sicherheitsrisiken von MLLM-basierten Computer-Nutzungs-Agenten leidet unter mehreren Einschränkungen: Entweder fehlen realistische interaktive Umgebungen, oder es wird eng auf einen oder wenige spezifische Risikotypen fokussiert. Diese Einschränkungen ignorieren die Komplexität, Variabilität und Vielfalt realer Umgebungen und schränken damit eine umfassende Risikobewertung für Computer-Nutzungs-Agenten ein. Aus diesem Grund stellen wir RiOSWorld vor, einen Benchmark, der entwickelt wurde, um die potenziellen Risiken von MLLM-basierten Agenten während realer Computer-Manipulationen zu bewerten. Unser Benchmark umfasst 492 riskante Aufgaben, die verschiedene Computeranwendungen abdecken, darunter Web, Social Media, Multimedia, Betriebssysteme, E-Mail und Bürosoftware. Wir kategorisieren diese Risiken basierend auf ihrer Risikoquelle in zwei Hauptklassen: (i) Benutzerbedingte Risiken und (ii) Umweltbedingte Risiken. Für die Bewertung betrachten wir Sicherheitsrisiken aus zwei Perspektiven: (i) Risikozielabsicht und (ii) Risikozielerreichung. Umfangreiche Experimente mit multimodalen Agenten auf RiOSWorld zeigen, dass aktuelle Computer-Nutzungs-Agenten in realen Szenarien erheblichen Sicherheitsrisiken ausgesetzt sind. Unsere Ergebnisse unterstreichen die Notwendigkeit und Dringlichkeit der Sicherheitsausrichtung für Computer-Nutzungs-Agenten in realen Computer-Manipulationen und bieten wertvolle Einblicke für die Entwicklung vertrauenswürdiger Computer-Nutzungs-Agenten. Unser Benchmark ist öffentlich verfügbar unter https://yjyddq.github.io/RiOSWorld.github.io/.
English
With the rapid development of multimodal large language models (MLLMs), they are increasingly deployed as autonomous computer-use agents capable of accomplishing complex computer tasks. However, a pressing issue arises: Can the safety risk principles designed and aligned for general MLLMs in dialogue scenarios be effectively transferred to real-world computer-use scenarios? Existing research on evaluating the safety risks of MLLM-based computer-use agents suffers from several limitations: it either lacks realistic interactive environments, or narrowly focuses on one or a few specific risk types. These limitations ignore the complexity, variability, and diversity of real-world environments, thereby restricting comprehensive risk evaluation for computer-use agents. To this end, we introduce RiOSWorld, a benchmark designed to evaluate the potential risks of MLLM-based agents during real-world computer manipulations. Our benchmark includes 492 risky tasks spanning various computer applications, involving web, social media, multimedia, os, email, and office software. We categorize these risks into two major classes based on their risk source: (i) User-originated risks and (ii) Environmental risks. For the evaluation, we evaluate safety risks from two perspectives: (i) Risk goal intention and (ii) Risk goal completion. Extensive experiments with multimodal agents on RiOSWorld demonstrate that current computer-use agents confront significant safety risks in real-world scenarios. Our findings highlight the necessity and urgency of safety alignment for computer-use agents in real-world computer manipulation, providing valuable insights for developing trustworthy computer-use agents. Our benchmark is publicly available at https://yjyddq.github.io/RiOSWorld.github.io/.
PDF12June 5, 2025