경량 마스크 디코딩을 통한 참조 표현 분할에서 MLLM의 잠재력 발굴
Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode
August 6, 2025
저자: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI
초록
참조 표현 분할(Reference Expression Segmentation, RES)은 참조 표현으로 지정된 이미지 영역을 분할하는 것을 목표로 하며, 멀티모달 대형 모델(Multimodal Large Models, MLLMs)의 부상과 함께 인기를 얻고 있다. MLLMs는 의미론적 이해에서 뛰어난 성능을 보이지만, 토큰 생성 패러다임은 픽셀 수준의 밀집 예측에는 어려움을 겪는다. 기존의 RES 방법들은 632M 네트워크 파라미터를 가진 부피가 큰 Segment Anything Model(SAM)을 MLLMs와 결합하거나, 정확도를 희생시키는 SAM-free 경량 파이프라인을 채택한다. 성능과 비용 간의 균형을 맞추기 위해, 우리는 추가적인 시각적 인코더를 도입하지 않고 MLLM 시각 인코더에 내재된 시각적 세부 특징을 완전히 활용하는 새로운 프레임워크인 MLLMSeg를 제안한다. 또한, MLLM의 대형 언어 모델(Large Language Model, LLM)이 출력하는 의미론적 특징과 세부 관련 시각적 특징을 완전히 통합하는 세부 강화 및 의미 일관성 특징 융합 모듈(Detail-Enhanced and Semantic-Consistent Feature Fusion Module, DSFF)을 제안한다. 마지막으로, 시각 인코더의 세부 공간 특징과 LLM의 의미론적 특징을 최적으로 활용하여 정확한 마스크 예측을 달성하는 단 34M 네트워크 파라미터를 가진 경량 마스크 디코더를 구축한다. 광범위한 실험을 통해 우리의 방법이 SAM 기반 및 SAM-free 경쟁자들을 일반적으로 능가하며, 성능과 비용 간의 더 나은 균형을 달성함을 입증한다. 코드는 https://github.com/jcwang0602/MLLMSeg에서 확인할 수 있다.
English
Reference Expression Segmentation (RES) aims to segment image regions
specified by referring expressions and has become popular with the rise of
multimodal large models (MLLMs). While MLLMs excel in semantic understanding,
their token-generation paradigm struggles with pixel-level dense prediction.
Existing RES methods either couple MLLMs with the parameter-heavy Segment
Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight
pipelines that sacrifice accuracy. To address the trade-off between performance
and cost, we specifically propose MLLMSeg, a novel framework that fully
exploits the inherent visual detail features encoded in the MLLM vision encoder
without introducing an extra visual encoder. Besides, we propose a
detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully
integrates the detail-related visual feature with the semantic-related feature
output by the large language model (LLM) of MLLM. Finally, we establish a
light-weight mask decoder with only 34M network parameters that optimally
leverages detailed spatial features from the visual encoder and semantic
features from the LLM to achieve precise mask prediction. Extensive experiments
demonstrate that our method generally surpasses both SAM-based and SAM-free
competitors, striking a better balance between performance and cost. Code is
available at https://github.com/jcwang0602/MLLMSeg.