Control de Aplicaciones Neuronales Livianas

Resumen

Este documento presenta una nueva arquitectura de control de teléfonos móviles, denominada "agentes de aplicaciones", para interacciones y controles eficientes en diversas aplicaciones de Android. El propuesto Control de Aplicaciones Multi-modales Ligero (LiMAC) toma como entrada un objetivo textual y una secuencia de observaciones móviles pasadas, como capturas de pantalla y árboles de interfaz de usuario correspondientes, para generar acciones precisas. Para abordar las limitaciones computacionales inherentes a los teléfonos inteligentes, dentro de LiMAC, introducimos un pequeño Transformador de Acciones (AcT) integrado con un modelo visión-lenguaje afinado (VLM) para la toma de decisiones en tiempo real y la ejecución de tareas. Evaluamos LiMAC en dos conjuntos de datos de control móvil de código abierto, demostrando el rendimiento superior de nuestro enfoque de factor de forma pequeño frente a versiones afinadas de VLM de código abierto, como Florence2 y Qwen2-VL. También supera significativamente a líneas de base de ingeniería de indicaciones que utilizan modelos de base de código cerrado como GPT-4o. Específicamente, LiMAC aumenta la precisión general de las acciones hasta un 19% en comparación con VLMs afinados, y hasta un 42% en comparación con las líneas de base de ingeniería de indicaciones.

English

This paper introduces a novel mobile phone control architecture, termed ``app agents", for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, within LiMAC, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.

Control de Aplicaciones Neuronales Livianas

Lightweight Neural App Control

Resumen

Support