MolmoPoint: Betere aanwijzing voor VLMs met grondslag-tokens
MolmoPoint: Better Pointing for VLMs with Grounding Tokens
March 30, 2026
Auteurs: Christopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna
cs.AI
Samenvatting
Aanwijzen is een fundamentele capaciteit geworden van visueel-taalkundige modellen (VTM's). De meeste bestaande VTM's wijzen aan door coördinaten te genereren als onderdeel van hun tekstuele output, wat het aanleren van een complex coördinatensysteem vereist en resulteert in een hoog aantal tokens. In plaats daarvan stellen wij een intuïtiever aanwijsmechanisme voor dat direct de visuele tokens selecteert die het doelconcept bevatten. Ons model genereert een speciaal aanwijstoken dat middels cross-attentie de input beeld- of videotokens analyseert en de juiste selecteert. Om dit model fijnmaziger te maken, laten we deze aanwijstokens volgen door een aanvullend speciaal token dat een fijnmazig subgedeelte binnen het initieel geselecteerde gebied kiest, en vervolgens een derde token dat een locatie binnen dat subgedeelte specificeert. Verder tonen we aan dat de prestaties verbeteren door punten sequentieel in een consistente volgorde te genereren, de relatieve positie van het eerder geselecteerde punt te coderen, en een speciale klasse voor 'geen-punten-meer' op te nemen bij het selecteren van visuele tokens. Met deze methode vestigen we een nieuwe state-of-the-art voor beeldaanwijzing (70,7% op PointBench), een nieuwe state-of-the-art onder volledig open modellen voor GUI-aanwijzing (61,1% op ScreenSpotPro), en verbeteren we video-aanwijzing (59,1% menselijke voorkeur winstpercentage vs. een tekstcoördinaten-basislijn) en tracking (+6,3% winst op Molmo2Track). Daarnaast tonen we aan dat onze methode een aanzienlijk hogere sample-efficiëntie bereikt en bespreken we de kwalitatieve verschillen die uit deze ontwerpwijziging voortvloeien.
English
Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.