Control de Aplicaciones Neuronales Livianas
Lightweight Neural App Control
October 23, 2024
Autores: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI
Resumen
Este documento presenta una nueva arquitectura de control de teléfonos móviles, denominada "agentes de aplicaciones", para interacciones y controles eficientes en diversas aplicaciones de Android. El propuesto Control de Aplicaciones Multi-modales Ligero (LiMAC) toma como entrada un objetivo textual y una secuencia de observaciones móviles pasadas, como capturas de pantalla y árboles de interfaz de usuario correspondientes, para generar acciones precisas. Para abordar las limitaciones computacionales inherentes a los teléfonos inteligentes, dentro de LiMAC, introducimos un pequeño Transformador de Acciones (AcT) integrado con un modelo visión-lenguaje afinado (VLM) para la toma de decisiones en tiempo real y la ejecución de tareas. Evaluamos LiMAC en dos conjuntos de datos de control móvil de código abierto, demostrando el rendimiento superior de nuestro enfoque de factor de forma pequeño frente a versiones afinadas de VLM de código abierto, como Florence2 y Qwen2-VL. También supera significativamente a líneas de base de ingeniería de indicaciones que utilizan modelos de base de código cerrado como GPT-4o. Específicamente, LiMAC aumenta la precisión general de las acciones hasta un 19% en comparación con VLMs afinados, y hasta un 42% en comparación con las líneas de base de ingeniería de indicaciones.
English
This paper introduces a novel mobile phone control architecture, termed ``app
agents", for efficient interactions and controls across various Android apps.
The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a
textual goal and a sequence of past mobile observations, such as screenshots
and corresponding UI trees, to generate precise actions. To address the
computational constraints inherent to smartphones, within LiMAC, we introduce a
small Action Transformer (AcT) integrated with a fine-tuned vision-language
model (VLM) for real-time decision-making and task execution. We evaluate LiMAC
on two open-source mobile control datasets, demonstrating the superior
performance of our small-form-factor approach against fine-tuned versions of
open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly
outperforms prompt engineering baselines utilising closed-source foundation
models like GPT-4o. More specifically, LiMAC increases the overall action
accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to
prompt-engineering baselines.Summary
AI-Generated Summary