MolmoPoint: Улучшенное указание для визуально-языковых моделей с помощью токенов привязки

Аннотация

Локализация объектов стала фундаментальной возможностью моделей «визуальный язык» (VLM). Большинство существующих VLM указывают на объекты, генерируя координаты как часть текстового вывода, что требует изучения сложной системы координат и приводит к большому количеству токенов. Вместо этого мы предлагаем более интуитивный механизм указания, который напрямую выбирает визуальные токены, содержащие целевое понятие. Наша модель генерирует специальный токен указания, который применяет перекрёстное внимание к токенам входного изображения или видео и выбирает подходящий. Чтобы сделать модель более детализированной, за этими токенами указания следует дополнительный специальный токен, который выбирает уточнённую подобласть внутри первоначально выбранной области, а затем третий токен, который указывает местоположение внутри этой подобласти. Мы также показываем, что производительность улучшается за счёт последовательного генерации точек в согласованном порядке, кодирования относительного положения ранее выбранной точки и включения специального класса «точек больше нет» при выборе визуальных токенов. Используя этот метод, мы устанавливаем новый рекорд для локализации на изображениях (70,7% на PointBench), устанавливаем новый рекорд среди полностью открытых моделей для локализации в графических интерфейсах (61,1% на ScreenSpotPro), а также улучшаем локализацию в видео (59,1% побед в сравнении с человеческими предпочтениями против базового метода с текстовыми координатами) и отслеживание объектов (+6,3% прирост на Molmo2Track). Кроме того, мы показываем, что наш метод обеспечивает значительно более высокую эффективность выборки и обсуждаем качественные различия, возникающие в результате этого изменения конструкции.

English

Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.

MolmoPoint: Улучшенное указание для визуально-языковых моделей с помощью токенов привязки

MolmoPoint: Better Pointing for VLMs with Grounding Tokens

Аннотация

Support