ChatPaper.aiChatPaper

MolmoPoint: グラウンディングトークンによるVLMの高精度ポインティング

MolmoPoint: Better Pointing for VLMs with Grounding Tokens

March 30, 2026
著者: Christopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna
cs.AI

要旨

グラウンディングは視覚言語モデル(VLM)の基本的な能力となっている。既存のVLMの多くは、テキスト出力の一部として座標を生成することで指示を行うが、これは複雑な座標系の学習を必要とし、高いトークン数を招く。代わりに我々は、対象概念を含む視覚トークンを直接選択する、より直感的な指示機構を提案する。本モデルは、特殊な指示トークンを生成し、それが入力画像または映像トークンに対してクロスアテンションを行い、適切なトークンを選択する。このモデルをより細粒度にするため、我々はこの指示トークンの後に、最初に選択された領域内の細粒度サブパッチを選択する追加の特殊トークン、さらにそのサブパッチ内の位置を指定する第三のトークンを続けて生成する。また、指示を一貫した順序で逐次的に生成すること、以前に選択された点の相対位置をエンコードすること、視覚トークン選択時にこれ以上点が無いことを示す特殊クラスを設けることで性能が向上することを示す。この手法を用いて、画像指示(PointBenchで70.7%)、GUI指示(ScreenSpotProで完全オープンモデル中最高の61.1%)において新たなstate-of-the-artを達成し、映像指示(テキスト座標ベースライン対して59.1%の人間評価勝率)と追跡(Molmo2Trackで+6.3%向上)を改善した。さらに、本手法がはるかに高いサンプル効率を達成すること、およびこの設計変更から生じる質的差異について考察する。
English
Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.
PDF20April 1, 2026