LearnAct: Agente per GUI Mobile con Apprendimento da Pochi Esempi e un Benchmark Unificato di Dimostrazioni

Abstract

Gli agenti GUI mobili mostrano un potenziale promettente nell'automatizzazione di compiti, ma affrontano sfide di generalizzazione in scenari reali diversificati. Gli approcci tradizionali che utilizzano pre-addestramento o fine-tuning con enormi dataset faticano a gestire la diversità delle applicazioni mobili e dei compiti specifici per l'utente. Proponiamo di potenziare le capacità degli agenti GUI mobili attraverso dimostrazioni umane, concentrandoci sul miglioramento delle prestazioni in scenari non visti piuttosto che perseguire una generalizzazione universale tramite dataset più ampi. Per realizzare questo paradigma, introduciamo LearnGUI, il primo dataset completo specificamente progettato per studiare l'apprendimento basato su dimostrazioni negli agenti GUI mobili, comprendente 2.252 compiti offline e 101 compiti online con dimostrazioni umane di alta qualità. Sviluppiamo inoltre LearnAct, un sofisticato framework multi-agente che estrae automaticamente conoscenza dalle dimostrazioni per migliorare il completamento dei compiti. Questo framework integra tre agenti specializzati: DemoParser per l'estrazione della conoscenza, KnowSeeker per il recupero della conoscenza rilevante e ActExecutor per l'esecuzione dei compiti potenziata dalle dimostrazioni. I nostri risultati sperimentali mostrano significativi miglioramenti nelle prestazioni sia nelle valutazioni offline che online. Nelle valutazioni offline, una singola dimostrazione migliora le prestazioni del modello, aumentando l'accuratezza di Gemini-1.5-Pro dal 19,3% al 51,7%. Nelle valutazioni online, il nostro framework aumenta il tasso di successo dei compiti di UI-TARS-7B-SFT dal 18,1% al 32,8%. Il framework LearnAct e il benchmark LearnGUI stabiliscono l'apprendimento basato su dimostrazioni come una direzione promettente per agenti GUI mobili più adattabili, personalizzati e implementabili.

English

Mobile GUI agents show promise in automating tasks but face generalization challenges in diverse real-world scenarios. Traditional approaches using pre-training or fine-tuning with massive datasets struggle with the diversity of mobile applications and user-specific tasks. We propose enhancing mobile GUI agent capabilities through human demonstrations, focusing on improving performance in unseen scenarios rather than pursuing universal generalization through larger datasets. To realize this paradigm, we introduce LearnGUI, the first comprehensive dataset specifically designed for studying demonstration-based learning in mobile GUI agents, comprising 2,252 offline tasks and 101 online tasks with high-quality human demonstrations. We further develop LearnAct, a sophisticated multi-agent framework that automatically extracts knowledge from demonstrations to enhance task completion. This framework integrates three specialized agents: DemoParser for knowledge extraction, KnowSeeker for relevant knowledge retrieval, and ActExecutor for demonstration-enhanced task execution. Our experimental results show significant performance gains in both offline and online evaluations. In offline assessments, a single demonstration improves model performance, increasing Gemini-1.5-Pro's accuracy from 19.3% to 51.7%. In online evaluations, our framework enhances UI-TARS-7B-SFT's task success rate from 18.1% to 32.8%. LearnAct framework and LearnGUI benchmark establish demonstration-based learning as a promising direction for more adaptable, personalized, and deployable mobile GUI agents.

LearnAct: Agente per GUI Mobile con Apprendimento da Pochi Esempi e un Benchmark Unificato di Dimostrazioni

LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark

Abstract

Support