軽量ニューラルアプリ制御
Lightweight Neural App Control
October 23, 2024
著者: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI
要旨
本論文では、Androidアプリケーション間の効率的な相互作用と制御のための新しいモバイル電話制御アーキテクチャ「アプリエージェント」を紹介します。提案された軽量マルチモーダルアプリ制御(LiMAC)は、テキスト形式のゴールと過去のモバイル観測(スクリーンショットや対応するUIツリーなど)のシーケンスを入力として、正確なアクションを生成します。スマートフォン固有の計算上の制約に対処するために、LiMAC内で、リアルタイムの意思決定とタスク実行のために、微調整されたビジョン言語モデル(VLM)と統合された小規模なアクショントランスフォーマー(AcT)を導入しています。私たちは、LiMACを2つのオープンソースモバイル制御データセットで評価し、オープンソースのVLM(Florence2やQwen2-VLなど)の微調整バージョンに対する小形ファクターアプローチの優れたパフォーマンスを示しています。また、GPT-4oなどのクローズドソースの基礎モデルを利用したプロンプトエンジニアリングベースラインを大幅に上回ります。具体的には、LiMACは、微調整されたVLMに比べて全体のアクション精度を最大19%向上させ、プロンプトエンジニアリングベースラインに比べて最大42%向上させます。
English
This paper introduces a novel mobile phone control architecture, termed ``app
agents", for efficient interactions and controls across various Android apps.
The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a
textual goal and a sequence of past mobile observations, such as screenshots
and corresponding UI trees, to generate precise actions. To address the
computational constraints inherent to smartphones, within LiMAC, we introduce a
small Action Transformer (AcT) integrated with a fine-tuned vision-language
model (VLM) for real-time decision-making and task execution. We evaluate LiMAC
on two open-source mobile control datasets, demonstrating the superior
performance of our small-form-factor approach against fine-tuned versions of
open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly
outperforms prompt engineering baselines utilising closed-source foundation
models like GPT-4o. More specifically, LiMAC increases the overall action
accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to
prompt-engineering baselines.Summary
AI-Generated Summary