Controllo leggero dell'applicazione neurale
Lightweight Neural App Control
October 23, 2024
Autori: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI
Abstract
Questo articolo introduce una nuova architettura di controllo dei telefoni cellulari, denominata "agenti delle app", per interazioni e controlli efficienti tra varie app Android. Il proposto Controllo Leggero Multi-modale delle App (LiMAC) prende come input un obiettivo testuale e una sequenza di osservazioni mobili passate, come screenshot e alberi UI corrispondenti, per generare azioni precise. Per affrontare i vincoli computazionali propri degli smartphone, all'interno di LiMAC, introduciamo un piccolo Trasformatore di Azione (AcT) integrato con un modello visione-linguaggio ottimizzato (VLM) per la presa di decisioni in tempo reale e l'esecuzione di compiti. Valutiamo LiMAC su due set di dati di controllo mobile open-source, dimostrando le prestazioni superiori del nostro approccio a fattore di forma ridotto rispetto alle versioni ottimizzate di VLM open-source, come Florence2 e Qwen2-VL. Supera significativamente anche i baselines di ingegneria di prompt che utilizzano modelli di base closed-source come GPT-4o. Più specificamente, LiMAC aumenta l'accuratezza complessiva delle azioni fino al 19% rispetto ai VLM ottimizzati e fino al 42% rispetto ai baselines di ingegneria di prompt.
English
This paper introduces a novel mobile phone control architecture, termed ``app
agents", for efficient interactions and controls across various Android apps.
The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a
textual goal and a sequence of past mobile observations, such as screenshots
and corresponding UI trees, to generate precise actions. To address the
computational constraints inherent to smartphones, within LiMAC, we introduce a
small Action Transformer (AcT) integrated with a fine-tuned vision-language
model (VLM) for real-time decision-making and task execution. We evaluate LiMAC
on two open-source mobile control datasets, demonstrating the superior
performance of our small-form-factor approach against fine-tuned versions of
open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly
outperforms prompt engineering baselines utilising closed-source foundation
models like GPT-4o. More specifically, LiMAC increases the overall action
accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to
prompt-engineering baselines.Summary
AI-Generated Summary