Controlo Leve de Aplicações Neurais
Lightweight Neural App Control
October 23, 2024
Autores: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI
Resumo
Este artigo apresenta uma nova arquitetura de controle de telefone móvel, denominada "agentes de aplicativos", para interações e controles eficientes em vários aplicativos Android. O proposto Controle de Aplicativo Multimodal Leve (LiMAC) recebe como entrada um objetivo textual e uma sequência de observações móveis passadas, como capturas de tela e árvores de interface do usuário correspondentes, para gerar ações precisas. Para lidar com as restrições computacionais inerentes aos smartphones, dentro do LiMAC, introduzimos um pequeno Transformador de Ação (AcT) integrado com um modelo de visão-linguagem ajustado (VLM) para tomada de decisões em tempo real e execução de tarefas. Avaliamos o LiMAC em dois conjuntos de dados de controle móvel de código aberto, demonstrando o desempenho superior de nossa abordagem de pequeno formato em comparação com versões ajustadas de VLMs de código aberto, como Florence2 e Qwen2-VL. Também supera significativamente baselines de engenharia de prompts que utilizam modelos de fundação de código fechado como GPT-4o. Mais especificamente, o LiMAC aumenta a precisão geral das ações em até 19% em comparação com VLMs ajustados e até 42% em comparação com baselines de engenharia de prompts.
English
This paper introduces a novel mobile phone control architecture, termed ``app
agents", for efficient interactions and controls across various Android apps.
The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a
textual goal and a sequence of past mobile observations, such as screenshots
and corresponding UI trees, to generate precise actions. To address the
computational constraints inherent to smartphones, within LiMAC, we introduce a
small Action Transformer (AcT) integrated with a fine-tuned vision-language
model (VLM) for real-time decision-making and task execution. We evaluate LiMAC
on two open-source mobile control datasets, demonstrating the superior
performance of our small-form-factor approach against fine-tuned versions of
open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly
outperforms prompt engineering baselines utilising closed-source foundation
models like GPT-4o. More specifically, LiMAC increases the overall action
accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to
prompt-engineering baselines.Summary
AI-Generated Summary