ChatPaper.aiChatPaper

Phi-Ground 기술 보고서: GUI 그라운딩에서의 인식 기술 발전

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

July 31, 2025
저자: Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, Qi Dai, Kai Qiu, Yifan Yang, Chong Luo, Tianyi Chen, Justin Wagle, Tim Franklin, Baining Guo
cs.AI

초록

다중 모드 추론 모델의 발전과 함께, "아이언맨"의 자비스와 유사한 컴퓨터 사용 에이전트(Computer Use Agents, CUAs)가 현실화되고 있습니다. GUI 그라운딩은 로봇공학에서의 기계적 제어와 마찬가지로 CUAs가 실제 동작을 실행하기 위한 핵심 구성 요소이며, 이는 시스템의 성공 또는 실패로 직접 이어집니다. 이는 클릭 및 타이핑과 같은 동작뿐만 아니라 클릭 좌표와 같은 관련 매개변수도 결정합니다. 현재의 종단 간 그라운딩 모델은 여전히 ScreenSpot-pro 및 UI-Vision과 같은 도전적인 벤치마크에서 65% 미만의 정확도를 달성하며, 이는 배포 준비가 아직 멀었음을 나타냅니다. 본 연구에서는 그라운딩 모델의 훈련에 대한 실증 연구를 수행하여 데이터 수집부터 모델 훈련까지의 세부 사항을 검토했습니다. 궁극적으로, 우리는 에이전트 설정에서 10B 미만의 매개변수를 가진 모델들 중 모든 다섯 가지 그라운딩 벤치마크에서 최첨단 성능을 달성하는 Phi-Ground 모델 패밀리를 개발했습니다. 종단 간 모델 설정에서도 우리의 모델은 ScreenSpot-pro에서 \textbf{43.2}, UI-Vision에서 \textbf{27.2}의 점수로 SOTA 결과를 달성했습니다. 우리는 이 논문에서 논의된 다양한 세부 사항과 우리의 성공 및 실패가 그라운딩 모델의 구성을 명확히 할 뿐만 아니라 다른 인식 작업에도 도움이 될 것이라고 믿습니다. 프로젝트 홈페이지: https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
English
With the development of multimodal reasoning models, Computer Use Agents (CUAs), akin to Jarvis from "Iron Man", are becoming a reality. GUI grounding is a core component for CUAs to execute actual actions, similar to mechanical control in robotics, and it directly leads to the success or failure of the system. It determines actions such as clicking and typing, as well as related parameters like the coordinates for clicks. Current end-to-end grounding models still achieve less than 65\% accuracy on challenging benchmarks like ScreenSpot-pro and UI-Vision, indicating they are far from being ready for deployment. % , as a single misclick can result in unacceptable consequences. In this work, we conduct an empirical study on the training of grounding models, examining details from data collection to model training. Ultimately, we developed the Phi-Ground model family, which achieves state-of-the-art performance across all five grounding benchmarks for models under 10B parameters in agent settings. In the end-to-end model setting, our model still achieves SOTA results with scores of \textbf{43.2} on ScreenSpot-pro and \textbf{27.2} on UI-Vision. We believe that the various details discussed in this paper, along with our successes and failures, not only clarify the construction of grounding models but also benefit other perception tasks. Project homepage: https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
PDF322August 1, 2025