ChatPaper.aiChatPaper

명시적 위치-좌표 매핑을 통한 GUI 기반 작업의 정확도 향상

Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

October 3, 2025
저자: Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian
cs.AI

초록

GUI 그라운딩(GUI grounding), 즉 자연어 명령어를 픽셀 좌표로 매핑하는 작업은 자율 에이전트에게 필수적이지만, 현재의 시각-언어 모델(VLM)들에게는 여전히 어려운 과제로 남아 있습니다. 핵심적인 문제는 패치에서 픽셀로의 신뢰할 수 있는 매핑이며, 이는 훈련 중에 보지 못한 고해상도 디스플레이로 외삽할 때 실패합니다. 현재의 접근 방식은 시각적 특징에서 직접 텍스트 토큰으로 좌표를 생성하도록 하여, 모델이 복잡한 위치-픽셀 매핑을 암묵적으로 추론하도록 강제합니다. 그 결과, 새로운 해상도에서 정확도가 저하되고 실패가 증가합니다. 우리는 이 문제를 두 가지 상호 보완적인 혁신으로 해결합니다. 첫째, RULER 토큰은 명시적인 좌표 마커 역할을 하여, 모델이 지도상의 격자선과 유사하게 위치를 참조하고 처음부터 좌표를 생성하는 대신 조정할 수 있게 합니다. 둘째, 인터리브드 MRoPE(I-MRoPE)는 너비와 높이 차원이 동등하게 표현되도록 하여 공간 인코딩을 개선함으로써, 표준 위치 인코딩 방식의 비대칭성을 해결합니다. ScreenSpot, ScreenSpot-V2, ScreenSpot-Pro에서의 실험은 그라운딩 정확도에서 일관된 향상을 보여주며, 특히 고해상도 인터페이스에서 가장 큰 개선을 보입니다. 암묵적 학습에 의존하기보다는 명시적인 공간 지침을 제공함으로써, 우리의 접근 방식은 다양한 해상도와 플랫폼에서 더 신뢰할 수 있는 GUI 자동화를 가능하게 합니다.
English
GUI grounding, the task of mapping natural-language instructions to pixel coordinates, is crucial for autonomous agents, yet remains difficult for current VLMs. The core bottleneck is reliable patch-to-pixel mapping, which breaks when extrapolating to high-resolution displays unseen during training. Current approaches generate coordinates as text tokens directly from visual features, forcing the model to infer complex position-to-pixel mappings implicitly; as a result, accuracy degrades and failures proliferate on new resolutions. We address this with two complementary innovations. First, RULER tokens serve as explicit coordinate markers, letting the model reference positions similar to gridlines on a map and adjust rather than generate coordinates from scratch. Second, Interleaved MRoPE (I-MRoPE) improves spatial encoding by ensuring that width and height dimensions are represented equally, addressing the asymmetry of standard positional schemes. Experiments on ScreenSpot, ScreenSpot-V2, and ScreenSpot-Pro show consistent gains in grounding accuracy, with the largest improvements on high-resolution interfaces. By providing explicit spatial guidance rather than relying on implicit learning, our approach enables more reliable GUI automation across diverse resolutions and platforms.
PDF32October 6, 2025