Controlo Leve de Aplicações Neurais

Resumo

Este artigo apresenta uma nova arquitetura de controle de telefone móvel, denominada "agentes de aplicativos", para interações e controles eficientes em vários aplicativos Android. O proposto Controle de Aplicativo Multimodal Leve (LiMAC) recebe como entrada um objetivo textual e uma sequência de observações móveis passadas, como capturas de tela e árvores de interface do usuário correspondentes, para gerar ações precisas. Para lidar com as restrições computacionais inerentes aos smartphones, dentro do LiMAC, introduzimos um pequeno Transformador de Ação (AcT) integrado com um modelo de visão-linguagem ajustado (VLM) para tomada de decisões em tempo real e execução de tarefas. Avaliamos o LiMAC em dois conjuntos de dados de controle móvel de código aberto, demonstrando o desempenho superior de nossa abordagem de pequeno formato em comparação com versões ajustadas de VLMs de código aberto, como Florence2 e Qwen2-VL. Também supera significativamente baselines de engenharia de prompts que utilizam modelos de fundação de código fechado como GPT-4o. Mais especificamente, o LiMAC aumenta a precisão geral das ações em até 19% em comparação com VLMs ajustados e até 42% em comparação com baselines de engenharia de prompts.

English

This paper introduces a novel mobile phone control architecture, termed ``app agents", for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, within LiMAC, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.

Controlo Leve de Aplicações Neurais

Lightweight Neural App Control

Resumo

Support