Управление легковесным нейронным приложением

Аннотация

Эта статья представляет новую архитектуру управления мобильным телефоном, названную "агенты приложений", для эффективного взаимодействия и управления в различных приложениях Android. Предложенный Легкий Мультимодальный Контроль Приложений (LiMAC) принимает на вход текстовую цель и последовательность прошлых мобильных наблюдений, таких как снимки экрана и соответствующие деревья пользовательского интерфейса, для генерации точных действий. Для решения вычислительных ограничений, присущих смартфонам, в рамках LiMAC мы представляем небольшой Трансформер Действий (AcT), интегрированный с тонко настроенной моделью видения-языка (VLM) для принятия решений в реальном времени и выполнения задач. Мы оцениваем LiMAC на двух открытых наборах данных для управления мобильными устройствами, демонстрируя превосходную производительность нашего подхода с небольшим форм-фактором по сравнению с тонко настроенными версиями открытых VLM, такими как Florence2 и Qwen2-VL. Он также значительно превосходит базовые модели инженерии запросов, использующие закрытые модели основы, такие как GPT-4o. Более конкретно, LiMAC увеличивает общую точность действий до 19% по сравнению с тонко настроенными VLM и до 42% по сравнению с базовыми моделями инженерии запросов.

English

This paper introduces a novel mobile phone control architecture, termed ``app agents", for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, within LiMAC, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.

Управление легковесным нейронным приложением

Lightweight Neural App Control

Аннотация

Support