OmniParser para Agente de Interface Gráfica do Usuário Baseado em Visão Pura
OmniParser for Pure Vision Based GUI Agent
August 1, 2024
Autores: Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah
cs.AI
Resumo
O recente sucesso dos grandes modelos de linguagem de visão demonstra um grande potencial em impulsionar o sistema de agente que opera em interfaces de usuário. No entanto, argumentamos que o poder de modelos multimodais como o GPT-4V como um agente geral em múltiplos sistemas operacionais em diferentes aplicações é amplamente subestimado devido à falta de uma técnica robusta de análise de tela capaz de: 1) identificar de forma confiável ícones interativos dentro da interface do usuário e 2) compreender a semântica de vários elementos em uma captura de tela e associar com precisão a ação pretendida à região correspondente na tela. Para preencher essas lacunas, apresentamos o OmniParser, um método abrangente para analisar capturas de tela da interface do usuário em elementos estruturados, o que melhora significativamente a capacidade do GPT-4V de gerar ações que podem ser precisamente fundamentadas nas regiões correspondentes da interface. Primeiramente, curamos um conjunto de dados de detecção de ícones interativos usando páginas da web populares e um conjunto de dados de descrição de ícones. Esses conjuntos de dados foram utilizados para ajustar modelos especializados: um modelo de detecção para analisar regiões interativas na tela e um modelo de legenda para extrair a semântica funcional dos elementos detectados. O OmniParser melhora significativamente o desempenho do GPT-4V no benchmark ScreenSpot. E nos benchmarks Mind2Web e AITW, o OmniParser com entrada apenas de captura de tela supera as linhas de base do GPT-4V que requerem informações adicionais fora da captura de tela.
English
The recent success of large vision language models shows great potential in
driving the agent system operating on user interfaces. However, we argue that
the power multimodal models like GPT-4V as a general agent on multiple
operating systems across different applications is largely underestimated due
to the lack of a robust screen parsing technique capable of: 1) reliably
identifying interactable icons within the user interface, and 2) understanding
the semantics of various elements in a screenshot and accurately associate the
intended action with the corresponding region on the screen. To fill these
gaps, we introduce OmniParser, a comprehensive method for parsing user
interface screenshots into structured elements, which significantly enhances
the ability of GPT-4V to generate actions that can be accurately grounded in
the corresponding regions of the interface. We first curated an interactable
icon detection dataset using popular webpages and an icon description dataset.
These datasets were utilized to fine-tune specialized models: a detection model
to parse interactable regions on the screen and a caption model to extract the
functional semantics of the detected elements. OmniParser
significantly improves GPT-4V's performance on ScreenSpot benchmark. And on
Mind2Web and AITW benchmark, OmniParser with screenshot only input
outperforms the GPT-4V baselines requiring additional information outside of
screenshot.Summary
AI-Generated Summary