MolmoPoint: Besseres Pointing für VLMs mit Grounding-Tokens
MolmoPoint: Better Pointing for VLMs with Grounding Tokens
March 30, 2026
Autoren: Christopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna
cs.AI
Zusammenfassung
Grounding (Verankerung) ist zu einer grundlegenden Fähigkeit von Vision-Sprache-Modellen (VLMs) geworden. Die meisten bestehenden VLMs zeigen auf, indem sie Koordinaten als Teil ihrer Textausgabe generieren. Dies erfordert das Erlernen eines komplexen Koordinatensystems und führt zu einer hohen Token-Anzahl. Stattdessen schlagen wir einen intuitiveren Pointing-Mechanismus vor, der direkt die visuellen Token auswählt, die das Zielkonzept enthalten. Unser Modell erzeugt einen speziellen Pointing-Token, der per Cross-Attention auf die Eingabe-Bild- oder Video-Token zugreift und den passenden auswählt. Um dieses Modell feinkörniger zu gestalten, folgen auf diese Pointing-Token ein zusätzlicher spezieller Token, der ein feinkörniges Subpatch innerhalb der zunächst ausgewählten Region auswählt, und dann ein dritter Token, der eine Position innerhalb dieses Subpatches angibt. Wir zeigen weiterhin, dass sich die Leistung verbessert, indem Punkte sequenziell in einer konsistenten Reihenfolge generiert werden, die relative Position des zuvor ausgewählten Punktes kodiert wird und eine spezielle "keine-weiteren-Punkte"-Klasse bei der Auswahl visueller Token einbezogen wird. Mit dieser Methode setzen wir einen neuen State-of-the-Art für Image Pointing (70,7 % auf PointBench), etablieren einen neuen State-of-the-Art unter vollständig offenen Modellen für GUI Pointing (61,1 % auf ScreenSpotPro) und verbessern Video Pointing (59,1 % menschliche Präferenz-Win-Rate gegenüber einer Textkoordinaten-Baseline) und Tracking (+6,3 % Zuwachs auf Molmo2Track). Zusätzlich zeigen wir, dass unsere Methode eine deutlich höhere Stichprobeneffizienz erreicht, und diskutieren die qualitativen Unterschiede, die sich aus dieser Designänderung ergeben.
English
Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.