SAMTok: Rappresentare Qualsiasi Maschera con Due Parole

Abstract

Le capacità a livello di pixel sono essenziali per costruire sistemi intelligenti interattivi. Tuttavia, i modelli linguistici multimodali (MLLM) con elaborazione pixel-wise rimangono difficili da scalare a causa di encoder a livello di regione complessi, decoder di segmentazione specializzati e obiettivi di addestramento incompatibili. Per affrontare queste sfide, presentiamo SAMTok, un tokenizzatore di maschere discreto che converte qualsiasi maschera di regione in due token speciali e ricostruisce la maschera utilizzando questi token con alta fedeltà. Trattando le maschere come nuovi token linguistici, SAMTok consente ai MLLM di base (come la serie QwenVL) di apprendere capacità pixel-wise attraverso la standard predizione del token successivo e un semplice apprendimento per rinforzo, senza modifiche architetturali e progettazione di loss specializzate. SAMTok si basa su SAM2 ed è addestrato su 209 milioni di maschere diverse utilizzando un encoder di maschere e un quantizzatore vettoriale residuo per produrre token discreti, compatti e ricchi di informazioni. Con 5 milioni di campioni di dati SAMTok-formattati per la comprensione e generazione di maschere, QwenVL-SAMTok ottiene risultati allo stato dell'arte o comparabili in attività di captioning regionale, VQA regionale, conversazione fondata, segmentazione referenziale, analisi di scene graph e segmentazione interattiva multi-round. Introduciamo inoltre una ricompensa basata sulla corrispondenza della risposta testuale che abilita un efficiente apprendimento per rinforzo per la generazione di maschere, fornendo miglioramenti sostanziali sui benchmark GRES e GCG. I nostri risultati dimostrano un paradigma scalabile e semplice per dotare i MLLM di solide capacità pixel-wise. Il nostro codice e i nostri modelli sono disponibili.

English

Pixel-wise capabilities are essential for building interactive intelligent systems. However, pixel-wise multi-modal LLMs (MLLMs) remain difficult to scale due to complex region-level encoders, specialized segmentation decoders, and incompatible training objectives. To address these challenges, we present SAMTok, a discrete mask tokenizer that converts any region mask into two special tokens and reconstructs the mask using these tokens with high fidelity. By treating masks as new language tokens, SAMTok enables base MLLMs (such as the QwenVL series) to learn pixel-wise capabilities through standard next-token prediction and simple reinforcement learning, without architectural modifications and specialized loss design. SAMTok builds on SAM2 and is trained on 209M diverse masks using a mask encoder and residual vector quantizer to produce discrete, compact, and information-rich tokens. With 5M SAMTok-formatted mask understanding and generation data samples, QwenVL-SAMTok attains state-of-the-art or comparable results on region captioning, region VQA, grounded conversation, referring segmentation, scene graph parsing, and multi-round interactive segmentation. We further introduce a textual answer-matching reward that enables efficient reinforcement learning for mask generation, delivering substantial improvements on GRES and GCG benchmarks. Our results demonstrate a scalable and straightforward paradigm for equipping MLLMs with strong pixel-wise capabilities. Our code and models are available.

SAMTok: Rappresentare Qualsiasi Maschera con Due Parole

SAMTok: Representing Any Mask with Two Words

Abstract

Support