ChatPaper.aiChatPaper

Controllo leggero dell'applicazione neurale

Lightweight Neural App Control

October 23, 2024
Autori: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI

Abstract

Questo articolo introduce una nuova architettura di controllo dei telefoni cellulari, denominata "agenti delle app", per interazioni e controlli efficienti tra varie app Android. Il proposto Controllo Leggero Multi-modale delle App (LiMAC) prende come input un obiettivo testuale e una sequenza di osservazioni mobili passate, come screenshot e alberi UI corrispondenti, per generare azioni precise. Per affrontare i vincoli computazionali propri degli smartphone, all'interno di LiMAC, introduciamo un piccolo Trasformatore di Azione (AcT) integrato con un modello visione-linguaggio ottimizzato (VLM) per la presa di decisioni in tempo reale e l'esecuzione di compiti. Valutiamo LiMAC su due set di dati di controllo mobile open-source, dimostrando le prestazioni superiori del nostro approccio a fattore di forma ridotto rispetto alle versioni ottimizzate di VLM open-source, come Florence2 e Qwen2-VL. Supera significativamente anche i baselines di ingegneria di prompt che utilizzano modelli di base closed-source come GPT-4o. Più specificamente, LiMAC aumenta l'accuratezza complessiva delle azioni fino al 19% rispetto ai VLM ottimizzati e fino al 42% rispetto ai baselines di ingegneria di prompt.
English
This paper introduces a novel mobile phone control architecture, termed ``app agents", for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, within LiMAC, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.

Summary

AI-Generated Summary

PDF102November 16, 2024