RiOSWorld: Оценка рисков многомодальных агентов для работы с компьютером
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents
May 31, 2025
Авторы: Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
cs.AI
Аннотация
С быстрым развитием мультимодальных больших языковых моделей (MLLMs) они всё чаще используются в качестве автономных агентов для работы с компьютером, способных выполнять сложные задачи. Однако возникает актуальный вопрос: могут ли принципы обеспечения безопасности, разработанные и адаптированные для общих MLLM в диалоговых сценариях, быть эффективно перенесены на реальные сценарии использования компьютера? Существующие исследования по оценке рисков безопасности агентов на основе MLLM, используемых для работы с компьютером, страдают от нескольких ограничений: либо они не учитывают реалистичные интерактивные среды, либо сосредоточены на одном или нескольких конкретных типах рисков. Эти ограничения игнорируют сложность, изменчивость и разнообразие реальных сред, что затрудняет всестороннюю оценку рисков для таких агентов. В связи с этим мы представляем RiOSWorld — эталонный набор данных, предназначенный для оценки потенциальных рисков агентов на основе MLLM при выполнении реальных манипуляций с компьютером. Наш набор включает 492 рискованные задачи, охватывающие различные компьютерные приложения, такие как веб-браузеры, социальные сети, мультимедиа, операционные системы, электронная почта и офисные программы. Мы классифицируем эти риски на две основные категории в зависимости от их источника: (i) риски, исходящие от пользователя, и (ii) риски, связанные с окружающей средой. Для оценки мы рассматриваем риски безопасности с двух точек зрения: (i) намерение достижения рискованной цели и (ii) завершение рискованной цели. Многочисленные эксперименты с мультимодальными агентами на RiOSWorld показывают, что современные агенты для работы с компьютером сталкиваются с существенными рисками безопасности в реальных сценариях. Наши результаты подчеркивают необходимость и срочность обеспечения безопасности таких агентов при выполнении реальных манипуляций с компьютером, предоставляя ценные инсайты для разработки надежных агентов. Наш эталонный набор данных доступен по адресу https://yjyddq.github.io/RiOSWorld.github.io/.
English
With the rapid development of multimodal large language models (MLLMs), they
are increasingly deployed as autonomous computer-use agents capable of
accomplishing complex computer tasks. However, a pressing issue arises: Can the
safety risk principles designed and aligned for general MLLMs in dialogue
scenarios be effectively transferred to real-world computer-use scenarios?
Existing research on evaluating the safety risks of MLLM-based computer-use
agents suffers from several limitations: it either lacks realistic interactive
environments, or narrowly focuses on one or a few specific risk types. These
limitations ignore the complexity, variability, and diversity of real-world
environments, thereby restricting comprehensive risk evaluation for
computer-use agents. To this end, we introduce RiOSWorld, a benchmark
designed to evaluate the potential risks of MLLM-based agents during real-world
computer manipulations. Our benchmark includes 492 risky tasks spanning various
computer applications, involving web, social media, multimedia, os, email, and
office software. We categorize these risks into two major classes based on
their risk source: (i) User-originated risks and (ii) Environmental risks. For
the evaluation, we evaluate safety risks from two perspectives: (i) Risk goal
intention and (ii) Risk goal completion. Extensive experiments with multimodal
agents on RiOSWorld demonstrate that current computer-use agents
confront significant safety risks in real-world scenarios. Our findings
highlight the necessity and urgency of safety alignment for computer-use agents
in real-world computer manipulation, providing valuable insights for developing
trustworthy computer-use agents. Our benchmark is publicly available at
https://yjyddq.github.io/RiOSWorld.github.io/.