LearnAct: Agente per GUI Mobile con Apprendimento da Pochi Esempi e un Benchmark Unificato di Dimostrazioni
LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark
April 18, 2025
Autori: Guangyi Liu, Pengxiang Zhao, Liang Liu, Zhiming Chen, Yuxiang Chai, Shuai Ren, Hao Wang, Shibo He, Wenchao Meng
cs.AI
Abstract
Gli agenti GUI mobili mostrano un potenziale promettente nell'automatizzazione di compiti, ma affrontano sfide di generalizzazione in scenari reali diversificati. Gli approcci tradizionali che utilizzano pre-addestramento o fine-tuning con enormi dataset faticano a gestire la diversità delle applicazioni mobili e dei compiti specifici per l'utente. Proponiamo di potenziare le capacità degli agenti GUI mobili attraverso dimostrazioni umane, concentrandoci sul miglioramento delle prestazioni in scenari non visti piuttosto che perseguire una generalizzazione universale tramite dataset più ampi. Per realizzare questo paradigma, introduciamo LearnGUI, il primo dataset completo specificamente progettato per studiare l'apprendimento basato su dimostrazioni negli agenti GUI mobili, comprendente 2.252 compiti offline e 101 compiti online con dimostrazioni umane di alta qualità. Sviluppiamo inoltre LearnAct, un sofisticato framework multi-agente che estrae automaticamente conoscenza dalle dimostrazioni per migliorare il completamento dei compiti. Questo framework integra tre agenti specializzati: DemoParser per l'estrazione della conoscenza, KnowSeeker per il recupero della conoscenza rilevante e ActExecutor per l'esecuzione dei compiti potenziata dalle dimostrazioni. I nostri risultati sperimentali mostrano significativi miglioramenti nelle prestazioni sia nelle valutazioni offline che online. Nelle valutazioni offline, una singola dimostrazione migliora le prestazioni del modello, aumentando l'accuratezza di Gemini-1.5-Pro dal 19,3% al 51,7%. Nelle valutazioni online, il nostro framework aumenta il tasso di successo dei compiti di UI-TARS-7B-SFT dal 18,1% al 32,8%. Il framework LearnAct e il benchmark LearnGUI stabiliscono l'apprendimento basato su dimostrazioni come una direzione promettente per agenti GUI mobili più adattabili, personalizzati e implementabili.
English
Mobile GUI agents show promise in automating tasks but face generalization
challenges in diverse real-world scenarios. Traditional approaches using
pre-training or fine-tuning with massive datasets struggle with the diversity
of mobile applications and user-specific tasks. We propose enhancing mobile GUI
agent capabilities through human demonstrations, focusing on improving
performance in unseen scenarios rather than pursuing universal generalization
through larger datasets. To realize this paradigm, we introduce LearnGUI, the
first comprehensive dataset specifically designed for studying
demonstration-based learning in mobile GUI agents, comprising 2,252 offline
tasks and 101 online tasks with high-quality human demonstrations. We further
develop LearnAct, a sophisticated multi-agent framework that automatically
extracts knowledge from demonstrations to enhance task completion. This
framework integrates three specialized agents: DemoParser for knowledge
extraction, KnowSeeker for relevant knowledge retrieval, and ActExecutor for
demonstration-enhanced task execution. Our experimental results show
significant performance gains in both offline and online evaluations. In
offline assessments, a single demonstration improves model performance,
increasing Gemini-1.5-Pro's accuracy from 19.3% to 51.7%. In online
evaluations, our framework enhances UI-TARS-7B-SFT's task success rate from
18.1% to 32.8%. LearnAct framework and LearnGUI benchmark establish
demonstration-based learning as a promising direction for more adaptable,
personalized, and deployable mobile GUI agents.Summary
AI-Generated Summary