MolmoPoint: 그라운딩 토큰을 통한 비주얼 언어 모델의 향상된 포인팅 기능
MolmoPoint: Better Pointing for VLMs with Grounding Tokens
March 30, 2026
저자: Christopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna
cs.AI
초록
접지(grounding)는 시각-언어 모델(VLM)의 핵심 능력으로 자리잡았습니다. 기존 대부분의 VLM은 좌표를 생성하여 텍스트 출력의 일부로 지시하는 방식을 사용하는데, 이는 복잡한 좌표계 학습을 요구하며 많은 토큰을 소모합니다. 이에 우리는 대상 개념을 포함하는 시각 토큰을 직접 선택하는 더 직관적인 지시 메커니즘을 제안합니다. 우리 모델은 입력 이미지 또는 비디오 토큰에 교차 주의(cross-attend)를 수행하여 적절한 토큰을 선택하는 특수 지시 토큰을 생성합니다. 이 모델을 더 세분화하기 위해, 우리는 이러한 지시 토큰 뒤에 처음 선택된 영역 내에서 세부 하위 패치를 선택하는 추가 특수 토큰을, 그리고 그 하위 패치 내 위치를 지정하는 세 번째 토큰을 연이어 생성합니다. 또한 일관된 순서로 점을 순차적으로 생성하고, 이전에 선택된 점의 상대적 위치를 인코딩하며, 시각 토큰 선택 시 특별한 '지점 없음' 클래스를 포함할 때 성능이 향상됨을 보여줍니다. 이 방법을 통해 우리는 이미지 포인팅(PointBench에서 70.7%)에서 새로운 최첨단 성능을 달성하고, GUI 포인팅(ScreenSpotPro에서 완전 오픈 모델 중 61.1%)에서 최고 성능을 기록하며, 비디오 포인팅(텍스트 좌표 기준 대비 59.1% 인간 선호도 승률)과 추적(Molmo2Track에서 +6.3% 향상) 성능을 개선했습니다. 추가로 우리 방법이 훨씬 높은 샘플 효율성을 달성함을 보여주며, 이러한 설계 변화에서 발생하는 질적 차이에 대해 논의합니다.
English
Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.