Aguvis: Verenigde Pure Vision Agents voor Autonome GUI-interactie
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction
December 5, 2024
Auteurs: Yiheng Xu, Zekun Wang, Junli Wang, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong
cs.AI
Samenvatting
Grafische gebruikersinterfaces (GUI's) zijn cruciaal voor mens-computerinteractie, maar het automatiseren van GUI-taken blijft uitdagend vanwege de complexiteit en variabiliteit van visuele omgevingen. Bestaande benaderingen vertrouwen vaak op tekstuele representaties van GUI's, wat beperkingen met zich meebrengt op het gebied van generalisatie, efficiëntie en schaalbaarheid. In dit artikel introduceren we Aguvis, een verenigd puur op visie gebaseerd framework voor autonome GUI-agenten dat op verschillende platforms werkt. Onze benadering maakt gebruik van op beelden gebaseerde observaties, en maakt instructies in natuurlijke taal vast aan visuele elementen, en maakt gebruik van een consistente actieruimte om generalisatie over platforms te waarborgen. Om de beperkingen van eerdere werken aan te pakken, integreren we expliciete planning en redeneren binnen het model, waardoor de mogelijkheid om autonoom te navigeren en te interacteren met complexe digitale omgevingen wordt verbeterd. We construeren een grootschalige dataset van GUI-agenttrajecten, waarbij multimodale redenering en vastlegging worden opgenomen, en maken gebruik van een tweefasen trainingspijplijn die zich eerst richt op algemene GUI-vastlegging, gevolgd door planning en redeneren. Via uitgebreide experimenten tonen we aan dat Aguvis eerdere state-of-the-art methoden overtreft in zowel offline als real-world online scenario's, waarbij het naar ons weten de eerste volledig autonome pure visie GUI-agent is die in staat is taken zelfstandig uit te voeren zonder samenwerking met externe gesloten-bronmodellen. We hebben alle datasets, modellen en trainingsrecepten open source gemaakt om toekomstig onderzoek te vergemakkelijken op https://aguvis-project.github.io/.
English
Graphical User Interfaces (GUIs) are critical to human-computer interaction,
yet automating GUI tasks remains challenging due to the complexity and
variability of visual environments. Existing approaches often rely on textual
representations of GUIs, which introduce limitations in generalization,
efficiency, and scalability. In this paper, we introduce Aguvis, a unified pure
vision-based framework for autonomous GUI agents that operates across various
platforms. Our approach leverages image-based observations, and grounding
instructions in natural language to visual elements, and employs a consistent
action space to ensure cross-platform generalization. To address the
limitations of previous work, we integrate explicit planning and reasoning
within the model, enhancing its ability to autonomously navigate and interact
with complex digital environments. We construct a large-scale dataset of GUI
agent trajectories, incorporating multimodal reasoning and grounding, and
employ a two-stage training pipeline that first focuses on general GUI
grounding, followed by planning and reasoning. Through comprehensive
experiments, we demonstrate that Aguvis surpasses previous state-of-the-art
methods in both offline and real-world online scenarios, achieving, to our
knowledge, the first fully autonomous pure vision GUI agent capable of
performing tasks independently without collaboration with external
closed-source models. We open-sourced all datasets, models, and training
recipes to facilitate future research at https://aguvis-project.github.io/.