ShowUI:一個針對GUI視覺代理的Vision-Language-Action模型。ShowUI: One Vision-Language-Action Model for GUI Visual Agent
建構圖形使用者介面(GUI)助理對提升人類工作流生產力具有重要潛力。儘管大多數代理人是基於語言的,依賴於具有文本豐富元資訊的封閉式 API(例如 HTML 或可存取性樹),但它們在感知 UI 視覺方面與人類不同,凸顯了對 GUI 視覺代理人的需求。在這項工作中,我們在數位世界中開發了一個名為 ShowUI 的視覺-語言-動作模型,具有以下創新:(i)UI 引導的視覺標記選擇,通過將截圖制定為 UI 連接圖,自適應地識別其冗餘關係,並作為自注意力區塊期間標記選擇的標準;(ii)交錯的視覺-語言-動作串流,靈活地統一 GUI 任務中的多樣需求,使得在導航中有效管理視覺-動作歷史,或對每個截圖進行多輪查詢-動作序列配對,以增強訓練效率;(iii)小規模高質量 GUI 指示遵循數據集,通過精心的數據整理和採用重新取樣策略來解決重要數據類型不平衡的問題。憑藉上述組件,使用 256K 數據的輕量級 2B 模型 ShowUI 在零樣本截圖定位中實現了強大的 75.1% 準確率。其 UI 引導的標記選擇進一步在訓練過程中減少了 33% 的冗餘視覺標記,並將性能加速了 1.4 倍。在跨網頁 Mind2Web、移動 AITW 和在線 MiniWob 環境中的導航實驗進一步突顯了我們模型在推進 GUI 視覺代理人方面的效力和潛力。模型可在 https://github.com/showlab/ShowUI 上找到。