MolmoPoint: Mejor apuntado para VLM con tokens de anclaje

Resumen

La localización se ha convertido en una capacidad fundamental de los modelos de visión y lenguaje (VLM). La mayoría de los VLM existentes localizan generando coordenadas como parte de su salida de texto, lo que requiere aprender un sistema de coordenadas complicado y resulta en un alto conteo de tokens. En su lugar, proponemos un mecanismo de señalización más intuitivo que selecciona directamente los tokens visuales que contienen el concepto objetivo. Nuestro modelo genera un token de señalización especial que aplica atención cruzada a los tokens de la imagen o video de entrada y selecciona el apropiado. Para hacer este modelo más granular, hacemos que estos tokens de señalización sean seguidos por un token especial adicional que selecciona un subparche granular dentro de la región seleccionada inicialmente, y luego un tercer token que especifica una ubicación dentro de ese subparche. Además, demostramos que el rendimiento mejora generando puntos secuencialmente en un orden consistente, codificando la posición relativa del punto seleccionado previamente e incluyendo una clase especial de "no-más-puntos" al seleccionar tokens visuales. Utilizando este método, establecemos un nuevo estado del arte en señalización en imágenes (70.7% en PointBench), establecemos un nuevo estado del arte entre los modelos completamente abiertos en señalización en GUI (61.1% en ScreenSpotPro) y mejoramos la señalización en video (59.1% de tasa de preferencia humana frente a una línea base de coordenadas de texto) y el seguimiento (+6.3% de ganancia en Molmo2Track). Adicionalmente, mostramos que nuestro método logra una eficiencia muestral mucho mayor y discutimos las diferencias cualitativas que emergen de este cambio de diseño.

English

Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.

MolmoPoint: Mejor apuntado para VLM con tokens de anclaje

MolmoPoint: Better Pointing for VLMs with Grounding Tokens

Resumen

Support