ShowUI : Un modĂšle Vision-Langage-Action pour un Agent Visuel d'Interface Graphique UtilisateurShowUI: One Vision-Language-Action Model for GUI Visual Agent
La crĂ©ation d'assistants d'interface utilisateur graphique (GUI) offre un potentiel significatif pour amĂ©liorer la productivitĂ© des flux de travail humains. Alors que la plupart des agents sont basĂ©s sur le langage, reposant sur des API propriĂ©taires avec des mĂ©tadonnĂ©es riches en texte (par exemple, HTML ou l'arborescence d'accessibilitĂ©), ils montrent des limites dans la perception des Ă©lĂ©ments visuels de l'interface utilisateur comme le font les humains, soulignant ainsi le besoin d'agents visuels GUI. Dans ce travail, nous dĂ©veloppons un modĂšle vision-langage-action dans le monde numĂ©rique, nommĂ© ShowUI, qui prĂ©sente les innovations suivantes : (i) SĂ©lection de jetons visuels guidĂ©e par l'interface utilisateur pour rĂ©duire les coĂ»ts de calcul en formulant des captures d'Ă©cran sous forme de graphe d'interface utilisateur, identifiant de maniĂšre adaptative leurs relations redondantes et servant de critĂšre de sĂ©lection de jetons pendant les blocs d'auto-attention ; (ii) Diffusion intercalĂ©e de vision-langage-action qui unifie de maniĂšre flexible les besoins divers dans les tĂąches GUI, permettant une gestion efficace de l'historique des actions visuelles dans la navigation ou l'appariement de sĂ©quences de requĂȘtes-actions multi-tours par capture d'Ă©cran pour amĂ©liorer l'efficacitĂ© de l'entraĂźnement ; (iii) Ensembles de donnĂ©es de suivi d'instructions GUI de petite taille et de haute qualitĂ© par une curation minutieuse des donnĂ©es et en utilisant une stratĂ©gie de rééchantillonnage pour rĂ©soudre les dĂ©sĂ©quilibres significatifs des types de donnĂ©es. Avec les composants ci-dessus, ShowUI, un modĂšle 2B lĂ©ger utilisant 256K de donnĂ©es, atteint une prĂ©cision solide de 75,1% dans l'ancrage de captures d'Ă©cran sans prĂ©-entraĂźnement. Sa sĂ©lection de jetons guidĂ©e par l'interface utilisateur rĂ©duit en outre de 33% les jetons visuels redondants lors de l'entraĂźnement et accĂ©lĂšre les performances de 1,4 fois. Les expĂ©riences de navigation Ă travers les environnements web Mind2Web, mobile AITW et en ligne MiniWob soulignent en outre l'efficacitĂ© et le potentiel de notre modĂšle dans l'avancement des agents visuels GUI. Les modĂšles sont disponibles sur https://github.com/showlab/ShowUI.