SAMTok: Elke Masker Weergeven met Twee Woorden

Samenvatting

Pixelsgewijze mogelijkheden zijn essentieel voor het bouwen van interactieve intelligente systemen. Pixelsgewijze multimodale LLM's (MLLM's) blijven echter moeilijk op te schalen vanwege complexe regioniveau-encoders, gespecialiseerde segmentatiedecoders en onverenigbare trainingsdoelstellingen. Om deze uitdagingen aan te pakken, presenteren wij SAMTok, een discrete maskertokenizer die elk regiomasker omzet in twee speciale tokens en het masker met hoge nauwkeurigheid reconstrueert met behulp van deze tokens. Door maskers als nieuwe taaltokens te behandelen, stelt SAMTok basale MLLM's (zoals de QwenVL-reeks) in staat pixelsgewijze mogelijkheden aan te leren via standaard volgende-tokenvoorspelling en eenvoudige reinforcement learning, zonder aanpassingen aan de architectuur of gespecialiseerd verliesontwerp. SAMTok bouwt voort op SAM2 en is getraind op 209 miljoen diverse maskers met behulp van een maskerencoder en residuele vectorquantizer om discrete, compacte en informatieve tokens te produceren. Met 5 miljoen SAMTok-geformatteerde gegevensmonsters voor maskerbegrip en -generatie behaalt QwenVL-SAMTok state-of-the-art of vergelijkbare resultaten voor regiobeschrijving, regio-VQA, gegronde conversatie, refererende segmentatie, scènegraphparsing en interactieve segmentatie in meerdere rondes. Wij introduceren verder een tekstuele beloning voor antwoordmatching die efficiënte reinforcement learning mogelijk maakt voor maskergeneratie, wat aanzienlijke verbeteringen oplevert op de GRES- en GCG-benchmarks. Onze resultaten tonen een schaalbaar en eenvoudig paradigma aan voor het uitrusten van MLLM's met sterke pixelsgewijze mogelijkheden. Onze code en modellen zijn beschikbaar.

English

Pixel-wise capabilities are essential for building interactive intelligent systems. However, pixel-wise multi-modal LLMs (MLLMs) remain difficult to scale due to complex region-level encoders, specialized segmentation decoders, and incompatible training objectives. To address these challenges, we present SAMTok, a discrete mask tokenizer that converts any region mask into two special tokens and reconstructs the mask using these tokens with high fidelity. By treating masks as new language tokens, SAMTok enables base MLLMs (such as the QwenVL series) to learn pixel-wise capabilities through standard next-token prediction and simple reinforcement learning, without architectural modifications and specialized loss design. SAMTok builds on SAM2 and is trained on 209M diverse masks using a mask encoder and residual vector quantizer to produce discrete, compact, and information-rich tokens. With 5M SAMTok-formatted mask understanding and generation data samples, QwenVL-SAMTok attains state-of-the-art or comparable results on region captioning, region VQA, grounded conversation, referring segmentation, scene graph parsing, and multi-round interactive segmentation. We further introduce a textual answer-matching reward that enables efficient reinforcement learning for mask generation, delivering substantial improvements on GRES and GCG benchmarks. Our results demonstrate a scalable and straightforward paradigm for equipping MLLMs with strong pixel-wise capabilities. Our code and models are available.

SAMTok: Elke Masker Weergeven met Twee Woorden

SAMTok: Representing Any Mask with Two Words

Samenvatting

Support