SAMTok: 임의의 마스크를 두 단어로 표현하기
SAMTok: Representing Any Mask with Two Words
January 22, 2026
저자: Yikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li
cs.AI
초록
픽셀 단위 기능은 상호작용형 지능 시스템 구축에 필수적입니다. 그러나 픽셀 단위 다중 모달 LLM(MLLM)은 복잡한 영역 수준 인코더, 전문화된 분할 디코더, 그리고 상호 호환되지 않는 훈련 목표로 인해 확장하기 어려운 실정입니다. 이러한 문제를 해결하기 위해 우리는 SAMTok를 제안합니다. 이는 임의의 영역 마스크를 두 개의 특수 토큰으로 변환하고, 이러한 토큰을 사용하여 높은 정확도로 마스크를 재구성하는 이산 마스크 토크나이저입니다. 마스크를 새로운 언어 토큰으로 취급함으로써, SAMTok는 기본 MLLM(예: QwenVL 시리즈)이 아키텍처 수정이나 전문화된 손실 설계 없이도 표준 다음 토큰 예측과 간단한 강화 학습을 통해 픽셀 단위 기능을 학습할 수 있게 합니다. SAMTok는 SAM2를 기반으로 하며, 마스크 인코더와 잔여 벡터 양자화기를 사용하여 2억 900만 개의 다양한 마스크에 대해 훈련되어 이산적이고 간결하며 정보가 풍부한 토큰을 생성합니다. 500만 개의 SAMTok 형식 마스크 이해 및 생성 데이터 샘플을 통해, QwenVL-SAMTok는 영역 설명, 영역 VQA, 접지된 대화, 참조 분할, 장면 그래프 구문 분석, 다중 라운드 상호작용 분할 작업에서 최첨단 또는 이에 준하는 결과를 달성했습니다. 또한 우리는 마스크 생성을 위한 효율적인 강화 학습을 가능하게 하는 텍스트 응답 매칭 보상을 도입하여 GRES 및 GCG 벤치마크에서 상당한 성능 향상을 보여줍니다. 우리의 결과는 MLLM에 강력한 픽셀 단위 기능을 부여하는 확장 가능하고 직관적인 패러다임을 입증합니다. 우리의 코드와 모델은 공개되어 있습니다.
English
Pixel-wise capabilities are essential for building interactive intelligent systems. However, pixel-wise multi-modal LLMs (MLLMs) remain difficult to scale due to complex region-level encoders, specialized segmentation decoders, and incompatible training objectives. To address these challenges, we present SAMTok, a discrete mask tokenizer that converts any region mask into two special tokens and reconstructs the mask using these tokens with high fidelity. By treating masks as new language tokens, SAMTok enables base MLLMs (such as the QwenVL series) to learn pixel-wise capabilities through standard next-token prediction and simple reinforcement learning, without architectural modifications and specialized loss design. SAMTok builds on SAM2 and is trained on 209M diverse masks using a mask encoder and residual vector quantizer to produce discrete, compact, and information-rich tokens. With 5M SAMTok-formatted mask understanding and generation data samples, QwenVL-SAMTok attains state-of-the-art or comparable results on region captioning, region VQA, grounded conversation, referring segmentation, scene graph parsing, and multi-round interactive segmentation. We further introduce a textual answer-matching reward that enables efficient reinforcement learning for mask generation, delivering substantial improvements on GRES and GCG benchmarks. Our results demonstrate a scalable and straightforward paradigm for equipping MLLMs with strong pixel-wise capabilities. Our code and models are available.