MolmoPoint: Melhor Apontamento para VLMs com Tokens de Fundamentação
MolmoPoint: Better Pointing for VLMs with Grounding Tokens
March 30, 2026
Autores: Christopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna
cs.AI
Resumo
A fundamentação tornou-se uma capacidade fundamental dos modelos visão-linguagem (VLMs). A maioria dos VLMs existentes aponta gerando coordenadas como parte de sua saída de texto, o que requer a aprendizagem de um sistema de coordenadas complexo e resulta em uma alta contagem de *tokens*. Em vez disso, propomos um mecanismo de apontar mais intuitivo que seleciona diretamente os *tokens* visuais que contêm o conceito-alvo. Nosso modelo gera um *token* especial de apontamento que aplica atenção cruzada aos *tokens* de imagem ou vídeo de entrada e seleciona o apropriado. Para tornar este modelo mais granular, fazemos com que estes *tokens* de apontamento sejam seguidos por um *token* especial adicional que seleciona um sub-bloco granular dentro da região inicialmente selecionada, e depois um terceiro *token* que especifica uma localização dentro desse sub-bloco. Mostramos ainda que o desempenho melhora ao gerar pontos sequencialmente numa ordem consistente, codificando a posição relativa do ponto selecionado anteriormente, e incluindo uma classe especial "sem-mais-pontos" ao selecionar *tokens* visuais. Usando este método, estabelecemos um novo estado da arte em apontamento em imagens (70,7% no PointBench), estabelecemos um novo estado da arte entre modelos totalmente abertos em apontamento em IU gráfica (61,1% no ScreenSpotPro) e melhoramos o apontamento em vídeos (59,1% de taxa de preferência humana vs. uma linha de base de coordenadas textuais) e rastreamento (+6,3% de ganho no Molmo2Track). Adicionalmente, mostramos que o nosso método alcança uma eficiência amostral muito superior e discutimos as diferenças qualitativas que emergem desta mudança de design.
English
Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.