MemGUI-Agent: Een end-to-end langetermijn mobiele GUI-agent met proactief contextbeheer

Samenvatting

Op MLLM-gebaseerde mobiele GUI-agenten is aanzienlijke vooruitgang geboekt op korte-termijn taken, maar ze blijven onbetrouwbaar op lange-termijn taken die het onthouden van tussentijdse feiten over vele stappen en app-overgangen vereisen. We wijten deze beperking aan ReAct-achtige prompting, die passief per-stap registraties accumuleert, wat leidt tot prompt-explosie en verdunning van cruciale cross-app feiten. Om dit aan te pakken introduceren we MemGUI-Agent, een end-to-end lange-termijn mobiele GUI-agent met proactief contextbeheer. MemGUI-Agent is gebaseerd op Context-as-Action (ConAct), dat contextbeheer behandelt als eersteklas acties die worden gegenereerd door hetzelfde beleid dat UI-acties selecteert. In plaats van passief geschiedenis toe te voegen, onderhoudt ConAct drie gestructureerde contextvelden: samengevouwen actiegeschiedenis, samengevouwen UI-status en recente stapregistratie, waarbij cruciale UI-feiten behouden blijven terwijl de context compact blijft. Om proactief contextbeheer leerbaar te maken over modelschalen heen, construeren we MemGUI-3K, een dataset van 2.956 trajecten met volledige ConAct-annotaties voor gesuperviseerde training en offline analyse. Het trainen van een 8B model op MemGUI-3K levert MemGUI-8B-SFT op, een 8B MemGUI-Agent die de beste open-data 8B prestaties behaalt op MemGUI-Bench en generaliseert naar de out-of-distribution MobileWorld-benchmark. Code, data en getrainde modellen worden beschikbaar gesteld op https://memgui-agent.github.io/.

English

MLLM-based mobile GUI agents have made substantial progress on short-horizon tasks, yet remain unreliable on long-horizon tasks that require retaining intermediate facts across many steps and app transitions. We attribute this limitation to ReAct-style prompting, which passively accumulates per-step records, leading to prompt explosion and dilution of critical cross-app facts. To address this, we introduce MemGUI-Agent, an end-to-end long-horizon mobile GUI agent with proactive context management. MemGUI-Agent is built on Context-as-Action (ConAct), which casts context management as first-class actions emitted by the same policy that selects UI actions. Instead of passively appending history, ConAct maintains three structured context fields: folded action history, folded UI state, and recent step record, preserving critical UI facts while keeping context compact. To make proactive context management learnable across model scales, we construct MemGUI-3K, a 2,956-trajectory dataset with full ConAct annotations for supervised training and offline analysis. Training an 8B model on MemGUI-3K produces MemGUI-8B-SFT, an 8B MemGUI-Agent that achieves the best open-data 8B performance on MemGUI-Bench and generalizes to the out-of-distribution MobileWorld benchmark. Code, data, and trained models will be released at https://memgui-agent.github.io/.