ChatPaper.aiChatPaper

SAMTok: 任意のマスクを2語で表現する

SAMTok: Representing Any Mask with Two Words

January 22, 2026
著者: Yikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li
cs.AI

要旨

ピクセル単位の機能は、対話型知能システムを構築する上で不可欠である。しかし、ピクセル単位のマルチモーダル大規模言語モデル(MLLM)は、複雑な領域レベルエンコーダ、専門的なセグメンテーションデコーダ、互換性のない学習目標により、スケーリングが困難なままである。これらの課題に対処するため、本論文ではSAMTokを提案する。これは任意の領域マスクを2つの特殊トークンに変換し、これらのトークンを用いて高精度にマスクを再構築する離散マスクトークナイザである。マスクを新たな言語トークンとして扱うことで、SAMTokはベースMLLM(QwenVLシリーズなど)が、アーキテクチャ変更や専門的な損失設計を必要とせず、標準的な次トークン予測と単純な強化学習を通じてピクセル単位の機能を学習することを可能にする。SAMTokはSAM2を基盤とし、マスクエンコーダと残差ベクトル量子化器を用いて209Mの多様なマスクで学習され、離散的でコンパクト、かつ情報量の豊富なトークンを生成する。500万のSAMTok形式マスク理解・生成データサンプルにより、QwenVL-SAMTokは領域キャプション、領域VQA、グラウンディッド会話、参照セグメンテーション、シーングラフ解析、マルチラウンド対話的セグメンテーションにおいて、State-of-the-Artまたは同等の結果を達成した。さらに、マスク生成のための効率的な強化学習を可能にするテキスト回答マッチング報酬を導入し、GRESおよびGCGベンチマークで大幅な改善をもたらした。我々の結果は、MLLMに強力なピクセル単位機能を付与する、スケーラブルで直截なパラダイムを実証する。コードとモデルは公開されている。
English
Pixel-wise capabilities are essential for building interactive intelligent systems. However, pixel-wise multi-modal LLMs (MLLMs) remain difficult to scale due to complex region-level encoders, specialized segmentation decoders, and incompatible training objectives. To address these challenges, we present SAMTok, a discrete mask tokenizer that converts any region mask into two special tokens and reconstructs the mask using these tokens with high fidelity. By treating masks as new language tokens, SAMTok enables base MLLMs (such as the QwenVL series) to learn pixel-wise capabilities through standard next-token prediction and simple reinforcement learning, without architectural modifications and specialized loss design. SAMTok builds on SAM2 and is trained on 209M diverse masks using a mask encoder and residual vector quantizer to produce discrete, compact, and information-rich tokens. With 5M SAMTok-formatted mask understanding and generation data samples, QwenVL-SAMTok attains state-of-the-art or comparable results on region captioning, region VQA, grounded conversation, referring segmentation, scene graph parsing, and multi-round interactive segmentation. We further introduce a textual answer-matching reward that enables efficient reinforcement learning for mask generation, delivering substantial improvements on GRES and GCG benchmarks. Our results demonstrate a scalable and straightforward paradigm for equipping MLLMs with strong pixel-wise capabilities. Our code and models are available.
PDF311January 24, 2026