軽量マスクデコードによる参照表現セグメンテーションにおけるMLLMの可能性の解放
Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode
August 6, 2025
著者: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI
要旨
参照表現セグメンテーション(RES)は、参照表現によって指定された画像領域をセグメント化することを目的としており、マルチモーダル大規模モデル(MLLMs)の台頭とともに注目を集めています。MLLMsは意味理解において優れていますが、そのトークン生成パラダイムはピクセルレベルの密な予測に苦戦しています。既存のRES手法は、632Mのネットワークパラメータを持つパラメータの多いSegment Anything Model(SAM)をMLLMsと組み合わせるか、精度を犠牲にしてSAMを使用しない軽量なパイプラインを採用しています。性能とコストのトレードオフに対処するため、我々は特にMLLMSegという新しいフレームワークを提案します。このフレームワークは、追加の視覚エンコーダを導入せずに、MLLMの視覚エンコーダにエンコードされた視覚的詳細特徴を完全に活用します。さらに、詳細を強化し意味的に一貫した特徴融合モジュール(DSFF)を提案し、MLLMの大規模言語モデル(LLM)によって出力された意味関連特徴と詳細関連視覚特徴を完全に統合します。最後に、わずか34Mのネットワークパラメータを持つ軽量なマスクデコーダを確立し、視覚エンコーダからの詳細な空間特徴とLLMからの意味特徴を最適に活用して、正確なマスク予測を実現します。広範な実験により、我々の手法は一般的にSAMベースおよびSAMフリーの競合手法を上回り、性能とコストのバランスをより良く取ることが示されています。コードはhttps://github.com/jcwang0602/MLLMSegで公開されています。
English
Reference Expression Segmentation (RES) aims to segment image regions
specified by referring expressions and has become popular with the rise of
multimodal large models (MLLMs). While MLLMs excel in semantic understanding,
their token-generation paradigm struggles with pixel-level dense prediction.
Existing RES methods either couple MLLMs with the parameter-heavy Segment
Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight
pipelines that sacrifice accuracy. To address the trade-off between performance
and cost, we specifically propose MLLMSeg, a novel framework that fully
exploits the inherent visual detail features encoded in the MLLM vision encoder
without introducing an extra visual encoder. Besides, we propose a
detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully
integrates the detail-related visual feature with the semantic-related feature
output by the large language model (LLM) of MLLM. Finally, we establish a
light-weight mask decoder with only 34M network parameters that optimally
leverages detailed spatial features from the visual encoder and semantic
features from the LLM to achieve precise mask prediction. Extensive experiments
demonstrate that our method generally surpasses both SAM-based and SAM-free
competitors, striking a better balance between performance and cost. Code is
available at https://github.com/jcwang0602/MLLMSeg.