ChatPaper.aiChatPaper

SAMTok : Représenter n'importe quel masque avec deux mots

SAMTok: Representing Any Mask with Two Words

January 22, 2026
papers.authors: Yikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li
cs.AI

papers.abstract

Les capacités pixel à pixel sont essentielles pour développer des systèmes intelligents interactifs. Cependant, les modèles de langage multimodaux (MLLM) opérant au niveau pixel restent difficiles à mettre à l'échelle en raison d'encodeurs régionaux complexes, de décodeurs de segmentation spécialisés et d'objectifs d'entraînement incompatibles. Pour relever ces défis, nous présentons SAMTok, un tokeniseur de masques discret qui convertit tout masque régional en deux tokens spéciaux et reconstruit le masque avec une haute fidélité à l'aide de ces tokens. En traitant les masques comme de nouveaux tokens linguistiques, SAMTok permet aux MLLM de base (tels que la série QwenVL) d'acquérir des capacités pixel à pixel via la prédiction standard du token suivant et un apprentissage par renforcement simple, sans modifications architecturales ni conception de perte spécialisée. SAMTok s'appuie sur SAM2 et est entraîné sur 209 millions de masques diversifiés à l'aide d'un encodeur de masques et d'un quantificateur vectoriel résiduel pour produire des tokens discrets, compacts et riches en informations. Avec 5 millions d'échantillons de données de compréhension et de génération de masques formatés SAMTok, QwenVL-SAMTok obtient des résultats à l'état de l'art ou comparables sur des tâches de légendage régional, de question-réponse visuel régional, de conversation ancrée, de segmentation référentielle, d'analyse de graphe de scène et de segmentation interactive multi-tours. Nous introduisons en outre une récompense d'appariement de réponse textuelle qui permet un apprentissage par renforcement efficace pour la génération de masques, apportant des améliorations substantielles sur les benchmarks GRES et GCG. Nos résultats démontrent un paradigme évolutif et simple pour doter les MLLM de solides capacités pixel à pixel. Notre code et nos modèles sont disponibles.
English
Pixel-wise capabilities are essential for building interactive intelligent systems. However, pixel-wise multi-modal LLMs (MLLMs) remain difficult to scale due to complex region-level encoders, specialized segmentation decoders, and incompatible training objectives. To address these challenges, we present SAMTok, a discrete mask tokenizer that converts any region mask into two special tokens and reconstructs the mask using these tokens with high fidelity. By treating masks as new language tokens, SAMTok enables base MLLMs (such as the QwenVL series) to learn pixel-wise capabilities through standard next-token prediction and simple reinforcement learning, without architectural modifications and specialized loss design. SAMTok builds on SAM2 and is trained on 209M diverse masks using a mask encoder and residual vector quantizer to produce discrete, compact, and information-rich tokens. With 5M SAMTok-formatted mask understanding and generation data samples, QwenVL-SAMTok attains state-of-the-art or comparable results on region captioning, region VQA, grounded conversation, referring segmentation, scene graph parsing, and multi-round interactive segmentation. We further introduce a textual answer-matching reward that enables efficient reinforcement learning for mask generation, delivering substantial improvements on GRES and GCG benchmarks. Our results demonstrate a scalable and straightforward paradigm for equipping MLLMs with strong pixel-wise capabilities. Our code and models are available.
PDF311January 24, 2026