ChatPaper.aiChatPaper

SAMTok: Representar cualquier máscara con dos palabras

SAMTok: Representing Any Mask with Two Words

January 22, 2026
Autores: Yikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li
cs.AI

Resumen

Las capacidades a nivel de píxel son esenciales para construir sistemas inteligentes interactivos. Sin embargo, los LLMs multimodales (MLLMs) con capacidades pixel-wise siguen siendo difíciles de escalar debido a codificadores complejos a nivel de región, decodificadores especializados en segmentación y objetivos de entrenamiento incompatibles. Para abordar estos desafíos, presentamos SAMTok, un tokenizador discreto de máscaras que convierte cualquier máscara de región en dos tokens especiales y reconstruye la máscara utilizando estos tokens con alta fidelidad. Al tratar las máscaras como nuevos tokens de lenguaje, SAMTok permite que los MLLMs base (como la serie QwenVL) aprendan capacidades pixel-wise mediante la predicción estándar del siguiente token y un aprendizaje por refuerzo simple, sin modificaciones arquitectónicas ni diseños de pérdida especializados. SAMTok se basa en SAM2 y se entrena con 209 millones de máscaras diversas utilizando un codificador de máscaras y un cuantizador vectorial residual para producir tokens discretos, compactos y ricos en información. Con 5 millones de muestras de datos de comprensión y generación de máscaras en formato SAMTok, QwenVL-SAMTok obtiene resultados state-of-the-art o comparables en descripción de regiones, VQA de regiones, conversación fundamentada, segmentación referencial, análisis de grafos de escena y segmentación interactiva multi-ronda. Además, introducimos una recompensa de coincidencia de respuesta textual que permite un aprendizaje por refuerzo eficiente para la generación de máscaras, logrando mejoras sustanciales en los benchmarks GRES y GCG. Nuestros resultados demuestran un paradigma escalable y sencillo para dotar a los MLLMs de sólidas capacidades pixel-wise. Nuestro código y modelos están disponibles.
English
Pixel-wise capabilities are essential for building interactive intelligent systems. However, pixel-wise multi-modal LLMs (MLLMs) remain difficult to scale due to complex region-level encoders, specialized segmentation decoders, and incompatible training objectives. To address these challenges, we present SAMTok, a discrete mask tokenizer that converts any region mask into two special tokens and reconstructs the mask using these tokens with high fidelity. By treating masks as new language tokens, SAMTok enables base MLLMs (such as the QwenVL series) to learn pixel-wise capabilities through standard next-token prediction and simple reinforcement learning, without architectural modifications and specialized loss design. SAMTok builds on SAM2 and is trained on 209M diverse masks using a mask encoder and residual vector quantizer to produce discrete, compact, and information-rich tokens. With 5M SAMTok-formatted mask understanding and generation data samples, QwenVL-SAMTok attains state-of-the-art or comparable results on region captioning, region VQA, grounded conversation, referring segmentation, scene graph parsing, and multi-round interactive segmentation. We further introduce a textual answer-matching reward that enables efficient reinforcement learning for mask generation, delivering substantial improvements on GRES and GCG benchmarks. Our results demonstrate a scalable and straightforward paradigm for equipping MLLMs with strong pixel-wise capabilities. Our code and models are available.
PDF311January 24, 2026