ChatPaper.aiChatPaper

Control de Aplicaciones Neuronales Livianas

Lightweight Neural App Control

October 23, 2024
Autores: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
cs.AI

Resumen

Este documento presenta una nueva arquitectura de control de teléfonos móviles, denominada "agentes de aplicaciones", para interacciones y controles eficientes en diversas aplicaciones de Android. El propuesto Control de Aplicaciones Multi-modales Ligero (LiMAC) toma como entrada un objetivo textual y una secuencia de observaciones móviles pasadas, como capturas de pantalla y árboles de interfaz de usuario correspondientes, para generar acciones precisas. Para abordar las limitaciones computacionales inherentes a los teléfonos inteligentes, dentro de LiMAC, introducimos un pequeño Transformador de Acciones (AcT) integrado con un modelo visión-lenguaje afinado (VLM) para la toma de decisiones en tiempo real y la ejecución de tareas. Evaluamos LiMAC en dos conjuntos de datos de control móvil de código abierto, demostrando el rendimiento superior de nuestro enfoque de factor de forma pequeño frente a versiones afinadas de VLM de código abierto, como Florence2 y Qwen2-VL. También supera significativamente a líneas de base de ingeniería de indicaciones que utilizan modelos de base de código cerrado como GPT-4o. Específicamente, LiMAC aumenta la precisión general de las acciones hasta un 19% en comparación con VLMs afinados, y hasta un 42% en comparación con las líneas de base de ingeniería de indicaciones.
English
This paper introduces a novel mobile phone control architecture, termed ``app agents", for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, within LiMAC, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.

Summary

AI-Generated Summary

PDF102November 16, 2024