SAMTok: Darstellung beliebiger Masken mit zwei Wörtern
SAMTok: Representing Any Mask with Two Words
January 22, 2026
papers.authors: Yikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li
cs.AI
papers.abstract
Pixelweise Fähigkeiten sind entscheidend für die Entwicklung interaktiver intelligenter Systeme. Dennoch bleiben pixelweise multimodale LLMs (MLLMs) schwer skalierbar aufgrund komplexer regionenbasierter Encoder, spezialisierter Segmentierungs-Decoder und inkompatibler Trainingsziele. Um diese Herausforderungen zu bewältigen, stellen wir SAMTok vor, einen diskreten Masken-Tokenizer, der jede Regionsmaske in zwei spezielle Tokens umwandelt und die Maske mit hoher Wiedergabetreue aus diesen Tokens rekonstruiert. Indem Masken als neue Sprach-Tokens behandelt werden, ermöglicht SAMTok Basis-MLLMs (wie der QwenVL-Serie), pixelweise Fähigkeiten durch standardmäßige Next-Token-Prediction und einfaches Reinforcement Learning zu erlernen – ohne Architekturmodifikationen und spezielle Loss-Designs. SAMTok baut auf SAM2 auf und wurde auf 209 Millionen diversen Masken trainiert, wobei ein Masken-Encoder und ein residualer Vektorquantisierer eingesetzt werden, um diskrete, kompakte und informationsreiche Tokens zu erzeugen. Mit 5 Millionen SAMTok-formatierten Datensätzen zum Maskenverständnis und -generierung erzielt QwenVL-SAMTok state-of-the-art oder vergleichbare Ergebnisse in den Bereichen Region Captioning, Region VQA, Grounded Conversation, Referring Segmentation, Scene Graph Parsing und mehrstufiger interaktiver Segmentierung. Wir führen weiterhin eine textuelle Answer-Matching-Belohnung ein, die effizientes Reinforcement Learning für die Maskengenerierung ermöglicht und erhebliche Verbesserungen bei den GRES- und GCG-Benchmarks liefert. Unsere Ergebnisse demonstrieren ein skalierbares und einfaches Paradigma, um MLLMs mit starken pixelweisen Fähigkeiten auszustatten. Unser Code und unsere Modelle sind verfügbar.
English
Pixel-wise capabilities are essential for building interactive intelligent systems. However, pixel-wise multi-modal LLMs (MLLMs) remain difficult to scale due to complex region-level encoders, specialized segmentation decoders, and incompatible training objectives. To address these challenges, we present SAMTok, a discrete mask tokenizer that converts any region mask into two special tokens and reconstructs the mask using these tokens with high fidelity. By treating masks as new language tokens, SAMTok enables base MLLMs (such as the QwenVL series) to learn pixel-wise capabilities through standard next-token prediction and simple reinforcement learning, without architectural modifications and specialized loss design. SAMTok builds on SAM2 and is trained on 209M diverse masks using a mask encoder and residual vector quantizer to produce discrete, compact, and information-rich tokens. With 5M SAMTok-formatted mask understanding and generation data samples, QwenVL-SAMTok attains state-of-the-art or comparable results on region captioning, region VQA, grounded conversation, referring segmentation, scene graph parsing, and multi-round interactive segmentation. We further introduce a textual answer-matching reward that enables efficient reinforcement learning for mask generation, delivering substantial improvements on GRES and GCG benchmarks. Our results demonstrate a scalable and straightforward paradigm for equipping MLLMs with strong pixel-wise capabilities. Our code and models are available.