ChatPaper.aiChatPaper

경량 마스크 디코딩을 통한 참조 표현 분할에서 MLLM의 잠재력 발굴

Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode

August 6, 2025
저자: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI

초록

참조 표현 분할(Reference Expression Segmentation, RES)은 참조 표현으로 지정된 이미지 영역을 분할하는 것을 목표로 하며, 멀티모달 대형 모델(Multimodal Large Models, MLLMs)의 부상과 함께 인기를 얻고 있다. MLLMs는 의미론적 이해에서 뛰어난 성능을 보이지만, 토큰 생성 패러다임은 픽셀 수준의 밀집 예측에는 어려움을 겪는다. 기존의 RES 방법들은 632M 네트워크 파라미터를 가진 부피가 큰 Segment Anything Model(SAM)을 MLLMs와 결합하거나, 정확도를 희생시키는 SAM-free 경량 파이프라인을 채택한다. 성능과 비용 간의 균형을 맞추기 위해, 우리는 추가적인 시각적 인코더를 도입하지 않고 MLLM 시각 인코더에 내재된 시각적 세부 특징을 완전히 활용하는 새로운 프레임워크인 MLLMSeg를 제안한다. 또한, MLLM의 대형 언어 모델(Large Language Model, LLM)이 출력하는 의미론적 특징과 세부 관련 시각적 특징을 완전히 통합하는 세부 강화 및 의미 일관성 특징 융합 모듈(Detail-Enhanced and Semantic-Consistent Feature Fusion Module, DSFF)을 제안한다. 마지막으로, 시각 인코더의 세부 공간 특징과 LLM의 의미론적 특징을 최적으로 활용하여 정확한 마스크 예측을 달성하는 단 34M 네트워크 파라미터를 가진 경량 마스크 디코더를 구축한다. 광범위한 실험을 통해 우리의 방법이 SAM 기반 및 SAM-free 경쟁자들을 일반적으로 능가하며, 성능과 비용 간의 더 나은 균형을 달성함을 입증한다. 코드는 https://github.com/jcwang0602/MLLMSeg에서 확인할 수 있다.
English
Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address the trade-off between performance and cost, we specifically propose MLLMSeg, a novel framework that fully exploits the inherent visual detail features encoded in the MLLM vision encoder without introducing an extra visual encoder. Besides, we propose a detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully integrates the detail-related visual feature with the semantic-related feature output by the large language model (LLM) of MLLM. Finally, we establish a light-weight mask decoder with only 34M network parameters that optimally leverages detailed spatial features from the visual encoder and semantic features from the LLM to achieve precise mask prediction. Extensive experiments demonstrate that our method generally surpasses both SAM-based and SAM-free competitors, striking a better balance between performance and cost. Code is available at https://github.com/jcwang0602/MLLMSeg.
PDF32August 8, 2025