MolmoPoint : Un meilleur pointage pour les VLM avec des jetons d'ancrage
MolmoPoint: Better Pointing for VLMs with Grounding Tokens
March 30, 2026
Auteurs: Christopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna
cs.AI
Résumé
La capacité de pointage est devenue une compétence fondamentale des modèles vision-langage (VLM). La plupart des VLM existants pointent en générant des coordonnées dans leur sortie textuelle, ce qui nécessite l'apprentissage d'un système de coordonnées complexe et génère un nombre élevé de tokens. Nous proposons plutôt un mécanisme de pointage plus intuitif qui sélectionne directement les tokens visuels contenant le concept cible. Notre modèle génère un token de pointage spécial qui utilise une attention croisée avec les tokens de l'image ou de la vidéo d'entrée pour sélectionner le token approprié. Pour affiner ce modèle, nous faisons suivre ces tokens de pointage par un token spécial supplémentaire qui sélectionne une sous-région granulaire dans la zone initialement sélectionnée, puis par un troisième token qui spécifie un emplacement précis dans cette sous-région. Nous démontrons en outre que les performances s'améliorent en générant les points séquentiellement selon un ordre cohérent, en encodant la position relative du point précédemment sélectionné, et en incluant une classe spéciale "plus-aucun-point" lors de la sélection des tokens visuels. Avec cette méthode, nous établissons un nouvel état de l'art pour le pointage d'images (70,7% sur PointBench), un nouvel état de l'art parmi les modèles entièrement ouverts pour le pointage d'interfaces graphiques (61,1% sur ScreenSpotPro), et améliorons le pointage vidéo (59,1% de taux de préférence humaine contre une baseline textuelle par coordonnées) et le suivi (+6,3% d'amélioration sur Molmo2Track). Nous montrons également que notre méthode atteint une bien meilleure efficacité d'échantillonnage et discutons des différences qualitatives émergeant de cette modification conceptuelle.
English
Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.