Controllo leggero dell'applicazione neurale

Abstract

Questo articolo introduce una nuova architettura di controllo dei telefoni cellulari, denominata "agenti delle app", per interazioni e controlli efficienti tra varie app Android. Il proposto Controllo Leggero Multi-modale delle App (LiMAC) prende come input un obiettivo testuale e una sequenza di osservazioni mobili passate, come screenshot e alberi UI corrispondenti, per generare azioni precise. Per affrontare i vincoli computazionali propri degli smartphone, all'interno di LiMAC, introduciamo un piccolo Trasformatore di Azione (AcT) integrato con un modello visione-linguaggio ottimizzato (VLM) per la presa di decisioni in tempo reale e l'esecuzione di compiti. Valutiamo LiMAC su due set di dati di controllo mobile open-source, dimostrando le prestazioni superiori del nostro approccio a fattore di forma ridotto rispetto alle versioni ottimizzate di VLM open-source, come Florence2 e Qwen2-VL. Supera significativamente anche i baselines di ingegneria di prompt che utilizzano modelli di base closed-source come GPT-4o. Più specificamente, LiMAC aumenta l'accuratezza complessiva delle azioni fino al 19% rispetto ai VLM ottimizzati e fino al 42% rispetto ai baselines di ingegneria di prompt.

English

This paper introduces a novel mobile phone control architecture, termed ``app agents", for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, within LiMAC, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.

Controllo leggero dell'applicazione neurale

Lightweight Neural App Control

Abstract

Summary

Support

Support