OSUniverse: マルチモーダルGUIナビゲーションAIエージェントのベンチマーク
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents
May 6, 2025
著者: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
cs.AI
要旨
本論文では、OSUniverseを紹介します。これは、高度なGUIナビゲーションAIエージェント向けの複雑でマルチモーダルなデスクトップ指向タスクのベンチマークであり、使いやすさ、拡張性、テストケースの包括的なカバレッジ、および自動検証に焦点を当てています。タスクは、基本的な精密クリックから、器用さ、精度、明確な思考を要するマルチステップかつマルチアプリケーションのテストまで、複雑さのレベルに応じて分類されています。ここで紹介するバージョン1のベンチマークでは、公開時点でのSOTA(State of the Art)エージェントが50%以上の結果を達成できないようにテストケースの複雑さを調整し、一方で平均的なホワイトカラーワーカーがこれらのタスクを完璧に実行できるようにしています。ベンチマークは手動で採点することもできますが、平均誤差率が2%未満の自動検証メカニズムも導入しています。したがって、このベンチマークは、短期および中期の視野で、GUIナビゲーションAIエージェントの進捗、能力、および有効性を完全に自動化して測定するための確固たる基盤を提供します。ベンチマークのソースコードはhttps://github.com/agentsea/osuniverseで公開されています。
English
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal
desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on
ease of use, extensibility, comprehensive coverage of test cases, and automated
validation. We divide the tasks in increasing levels of complexity, from basic
precision clicking to multistep, multiapplication tests requiring dexterity,
precision, and clear thinking from the agent. In version one of the benchmark,
presented here, we have calibrated the complexity of the benchmark test cases
to ensure that the SOTA (State of the Art) agents (at the time of publication)
do not achieve results higher than 50%, while the average white collar worker
can perform all these tasks with perfect accuracy. The benchmark can be scored
manually, but we also introduce an automated validation mechanism that has an
average error rate less than 2%. Therefore, this benchmark presents solid
ground for fully automated measuring of progress, capabilities and the
effectiveness of GUI-navigation AI agents over the short and medium-term
horizon. The source code of the benchmark is available at
https://github.com/agentsea/osuniverse.Summary
AI-Generated Summary