OmniParser voor puur visie-gebaseerde GUI-agent
OmniParser for Pure Vision Based GUI Agent
August 1, 2024
Auteurs: Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah
cs.AI
Samenvatting
Het recente succes van grote visuele taalmodellen toont een groot potentieel in het aansturen van agentsystemen die werken op gebruikersinterfaces. Wij stellen echter dat de kracht van multimodale modellen zoals GPT-4V als een algemene agent op meerdere besturingssystemen en verschillende applicaties grotendeels wordt onderschat, vanwege het ontbreken van een robuuste schermparsingtechniek die in staat is om: 1) betrouwbaar interactieve iconen binnen de gebruikersinterface te identificeren, en 2) de semantiek van verschillende elementen in een schermafbeelding te begrijpen en de beoogde actie nauwkeurig te associëren met het corresponderende gebied op het scherm. Om deze lacunes op te vullen, introduceren we OmniParser, een uitgebreide methode voor het parsen van schermafbeeldingen van gebruikersinterfaces in gestructureerde elementen, wat het vermogen van GPT-4V aanzienlijk verbetert om acties te genereren die nauwkeurig kunnen worden verankerd in de corresponderende gebieden van de interface. We hebben eerst een dataset voor het detecteren van interactieve iconen samengesteld met behulp van populaire webpagina's en een dataset met iconenbeschrijvingen. Deze datasets werden gebruikt om gespecialiseerde modellen te finetunen: een detectiemodel om interactieve gebieden op het scherm te parsen en een captionmodel om de functionele semantiek van de gedetecteerde elementen te extraheren. OmniParser verbetert de prestaties van GPT-4V aanzienlijk op de ScreenSpot-benchmark. En op de Mind2Web- en AITW-benchmark presteert OmniParser met alleen schermafbeeldingen als invoer beter dan de GPT-4V-baselines die aanvullende informatie buiten de schermafbeelding vereisen.
English
The recent success of large vision language models shows great potential in
driving the agent system operating on user interfaces. However, we argue that
the power multimodal models like GPT-4V as a general agent on multiple
operating systems across different applications is largely underestimated due
to the lack of a robust screen parsing technique capable of: 1) reliably
identifying interactable icons within the user interface, and 2) understanding
the semantics of various elements in a screenshot and accurately associate the
intended action with the corresponding region on the screen. To fill these
gaps, we introduce OmniParser, a comprehensive method for parsing user
interface screenshots into structured elements, which significantly enhances
the ability of GPT-4V to generate actions that can be accurately grounded in
the corresponding regions of the interface. We first curated an interactable
icon detection dataset using popular webpages and an icon description dataset.
These datasets were utilized to fine-tune specialized models: a detection model
to parse interactable regions on the screen and a caption model to extract the
functional semantics of the detected elements. OmniParser
significantly improves GPT-4V's performance on ScreenSpot benchmark. And on
Mind2Web and AITW benchmark, OmniParser with screenshot only input
outperforms the GPT-4V baselines requiring additional information outside of
screenshot.