RiOSWorld: Avaliação de Riscos de Agentes Multimodais de Uso Computacional
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents
May 31, 2025
Autores: Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
cs.AI
Resumo
Com o rápido desenvolvimento dos modelos de linguagem multimodal de grande escala (MLLMs), eles estão sendo cada vez mais implantados como agentes autônomos de uso de computador capazes de realizar tarefas complexas. No entanto, surge uma questão urgente: Os princípios de risco de segurança projetados e alinhados para MLLMs gerais em cenários de diálogo podem ser efetivamente transferidos para cenários reais de uso de computador? A pesquisa existente sobre a avaliação dos riscos de segurança de agentes de uso de computador baseados em MLLMs sofre de várias limitações: ou carece de ambientes interativos realistas, ou se concentra de forma restrita em um ou poucos tipos específicos de risco. Essas limitações ignoram a complexidade, variabilidade e diversidade dos ambientes do mundo real, restringindo assim uma avaliação abrangente dos riscos para agentes de uso de computador. Para isso, introduzimos o RiOSWorld, um benchmark projetado para avaliar os riscos potenciais de agentes baseados em MLLMs durante manipulações reais de computador. Nosso benchmark inclui 492 tarefas de risco abrangendo várias aplicações de computador, envolvendo web, mídias sociais, multimídia, sistema operacional, e-mail e software de escritório. Categorizamos esses riscos em duas classes principais com base em sua fonte de risco: (i) Riscos originados pelo usuário e (ii) Riscos ambientais. Para a avaliação, avaliamos os riscos de segurança a partir de duas perspectivas: (i) Intenção do objetivo de risco e (ii) Conclusão do objetivo de risco. Experimentos extensivos com agentes multimodais no RiOSWorld demonstram que os atuais agentes de uso de computador enfrentam riscos de segurança significativos em cenários do mundo real. Nossas descobertas destacam a necessidade e urgência do alinhamento de segurança para agentes de uso de computador em manipulações reais de computador, fornecendo insights valiosos para o desenvolvimento de agentes de uso de computador confiáveis. Nosso benchmark está publicamente disponível em https://yjyddq.github.io/RiOSWorld.github.io/.
English
With the rapid development of multimodal large language models (MLLMs), they
are increasingly deployed as autonomous computer-use agents capable of
accomplishing complex computer tasks. However, a pressing issue arises: Can the
safety risk principles designed and aligned for general MLLMs in dialogue
scenarios be effectively transferred to real-world computer-use scenarios?
Existing research on evaluating the safety risks of MLLM-based computer-use
agents suffers from several limitations: it either lacks realistic interactive
environments, or narrowly focuses on one or a few specific risk types. These
limitations ignore the complexity, variability, and diversity of real-world
environments, thereby restricting comprehensive risk evaluation for
computer-use agents. To this end, we introduce RiOSWorld, a benchmark
designed to evaluate the potential risks of MLLM-based agents during real-world
computer manipulations. Our benchmark includes 492 risky tasks spanning various
computer applications, involving web, social media, multimedia, os, email, and
office software. We categorize these risks into two major classes based on
their risk source: (i) User-originated risks and (ii) Environmental risks. For
the evaluation, we evaluate safety risks from two perspectives: (i) Risk goal
intention and (ii) Risk goal completion. Extensive experiments with multimodal
agents on RiOSWorld demonstrate that current computer-use agents
confront significant safety risks in real-world scenarios. Our findings
highlight the necessity and urgency of safety alignment for computer-use agents
in real-world computer manipulation, providing valuable insights for developing
trustworthy computer-use agents. Our benchmark is publicly available at
https://yjyddq.github.io/RiOSWorld.github.io/.