MolmoPoint: Miglioramento del puntamento per i VLM tramite token di ancoraggio
MolmoPoint: Better Pointing for VLMs with Grounding Tokens
March 30, 2026
Autori: Christopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna
cs.AI
Abstract
La capacità di grounding è diventata una funzionalità fondamentale dei modelli visione-linguaggio (VLM). La maggior parte dei VLM esistenti indica generando coordinate come parte del loro output testuale, il che richiede l'apprendimento di un complicato sistema di coordinate e si traduce in un alto numero di token. Proponiamo invece un meccanismo di puntamento più intuitivo che seleziona direttamente i token visivi contenenti il concetto target. Il nostro modello genera un token di puntamento speciale che applica l'attenzione incrociata ai token dell'immagine o del video in input e seleziona quello appropriato. Per rendere questo modello più granulare, facciamo seguire questi token di puntamento da un token speciale aggiuntivo che seleziona una sottopatch granulare all'interno della regione inizialmente selezionata, e poi da un terzo token che specifica una posizione all'interno di quella sottopatch. Dimostriamo inoltre che le prestazioni migliorano generando i punti sequenzialmente in un ordine coerente, codificando la posizione relativa del punto precedentemente selezionato e includendo una classe speciale "nessun-altro-punto" durante la selezione dei token visivi. Utilizzando questo metodo, stabiliamo un nuovo stato dell'arte sul puntamento in immagini (70.7% su PointBench), un nuovo stato dell'arte tra i modelli completamente aperti sul puntamento in interfacce grafiche (61.1% su ScreenSpotPro) e miglioriamo il puntamento video (59.1% di tasso di preferenza umana vs. un baseline di coordinate testuali) e il tracking (+6.3% di guadagno su Molmo2Track). Mostriamo inoltre che il nostro metodo raggiunge un'efficienza campionaria molto più elevata e discutiamo le differenze qualitative che emergono da questo cambiamento progettuale.
English
Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.