AppAgent: スマートフォンユーザーとしてのマルチモーダルエージェント
AppAgent: Multimodal Agents as Smartphone Users
December 21, 2023
著者: Chi Zhang, Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
cs.AI
要旨
大規模言語モデル(LLM)の最近の進展により、複雑なタスクを実行可能なインテリジェントエージェントの開発が進んでいます。本論文では、スマートフォンアプリケーションを操作するための新しいLLMベースのマルチモーダルエージェントフレームワークを紹介します。このフレームワークは、タップやスワイプといった人間のようなインタラクションを模倣した簡素化されたアクション空間を通じて、エージェントがスマートフォンアプリケーションを操作することを可能にします。この新しいアプローチは、システムのバックエンドアクセスを必要としないため、多様なアプリケーションへの適用範囲が広がります。エージェントの機能の中核となるのは、その革新的な学習方法です。エージェントは、自律的な探索や人間のデモンストレーションを観察することで、新しいアプリケーションのナビゲートと使用方法を学習します。このプロセスにより、エージェントが異なるアプリケーション間で複雑なタスクを実行する際に参照する知識ベースが生成されます。本エージェントの実用性を実証するため、ソーシャルメディア、メール、地図、ショッピング、高度な画像編集ツールなど、10種類の異なるアプリケーションにおける50のタスクに対して広範なテストを実施しました。その結果、本エージェントが多様な高レベルタスクを扱う能力に優れていることが確認されました。
English
Recent advancements in large language models (LLMs) have led to the creation
of intelligent agents capable of performing complex tasks. This paper
introduces a novel LLM-based multimodal agent framework designed to operate
smartphone applications. Our framework enables the agent to operate smartphone
applications through a simplified action space, mimicking human-like
interactions such as tapping and swiping. This novel approach bypasses the need
for system back-end access, thereby broadening its applicability across diverse
apps. Central to our agent's functionality is its innovative learning method.
The agent learns to navigate and use new apps either through autonomous
exploration or by observing human demonstrations. This process generates a
knowledge base that the agent refers to for executing complex tasks across
different applications. To demonstrate the practicality of our agent, we
conducted extensive testing over 50 tasks in 10 different applications,
including social media, email, maps, shopping, and sophisticated image editing
tools. The results affirm our agent's proficiency in handling a diverse array
of high-level tasks.