GUI 시각 에이전트를 위한 Vision-Language-Action 모델인 ShowUIShowUI: One Vision-Language-Action Model for GUI Visual Agent
그래픽 사용자 인터페이스(GUI) 어시스턴트를 구축하는 것은 인간의 작업 효율성을 향상시키는 데 상당한 잠재력을 가지고 있습니다. 대부분의 에이전트는 언어 기반이며, 텍스트 풍부한 메타 정보(예: HTML 또는 접근성 트리)를 사용하는 폐쇄된 소스 API에 의존하고 있지만, 이러한 에이전트들은 인간이 하는 것처럼 UI 시각을 인식하는 데 제한이 있어 GUI 시각 에이전트의 필요성을 강조합니다. 본 연구에서는 디지턈 세계에서 비전-언어-행동 모델인 ShowUI를 개발하였으며, 다음과 같은 혁신을 특징으로 합니다: (i) UI-가이드된 시각 토큰 선택은 스크린샷을 UI 연결 그래프로 공식화하여 계산 비용을 줄이고, 자가 주의 블록 중 토큰 선택의 기준으로 작용하는 중복 관계를 적응적으로 식별함; (ii) 시각-언어-행동 스트리밍을 교차로 통합하여 GUI 작업 내에서 다양한 요구 사항을 유연하게 처리하며, 네비게이션에서 시각-행동 이력을 효과적으로 관리하거나 스크린샷 당 멀티턴 쿼리-행동 시퀀스를 결합하여 교육 효율성을 향상시킵니다; (iii) 소규모 고품질 GUI 지시어 따르기 데이터셋은 신중한 데이터 선별과 데이터 유형 불균형을 해결하기 위한 재표본화 전략을 활용합니다. 위 구성 요소로 구성된 ShowUI는 256K 데이터를 사용하는 가벼운 2B 모델로, 제로샷 스크린샷 그라운딩에서 강력한 75.1% 정확도를 달성합니다. UI-가이드된 토큰 선택은 교육 중 33%의 중복 시각 토큰을 줄이고 성능을 1.4배 높입니다. 웹 Mind2Web, 모바일 AITW 및 온라인 MiniWob 환경을 통해 수행된 네비게이션 실험은 우리 모델의 효과성과 잠재력을 더욱 강조합니다. 해당 모델은 https://github.com/showlab/ShowUI에서 사용할 수 있습니다.